什么是框架
集成了很多功能,并且具有很强通用性的一个项目模板。(或理解成一个项目的半成品)
scrapy框架
爬虫中封装好的一个明星框架。
功能:
- 高性能的持久化存储操作
- 异步的数据下载
- 高性能的数据解析
- 分布式
环境安装
Mac & Linux
pip isntall scrapy
Windows
1、 wheel
pip install wheel
2、下载Twisted(科学上网)
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下载自己对应得版本(我的是py3.9)
输入pip install 将下载的文件拖入安装
pip install d:\Users\YQ17454\Downloads\Twisted-20.3.0-cp39-cp39-win_amd64.whl
pywin32
pip install pywin32
scrapy
pip install scrapy
测试安装成功
终端中输入 scrapy,无报错及成功,不成功的注意版本
scrapy基本使用
基本使用
创建一个工程
终端输入:
scrapy startproject demo
UA伪装
在配置文件中
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
切换到项目文件中
cd .\first\
在spiders文件下,创建一个爬虫文件(必须有)
spider是爬虫类(spiders下的爬虫文件)的父类
scrapy genspider first_demo www.baidu.com
自动生成的first_demo.py:
import scrapy
class FirstDemoSpider(scrapy.Spider):
# 爬虫文件的名称 唯一标识
name = 'first_demo'
# 允许的域名: 用来限制start_urls 中可以发送请求的url,基本不使用
# allowed_domains = ['www.baidu.com']
# 起始的url列表(可有多个):自动的被scrapy进行请求
start_urls = ['http://www.baidu.com/', '