1.什么是scrapy?
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。框架的本质就是集成各种功能、具有很强通用性的项目模板。
2.安装
Linux:
pip3 install scrapy
Windows:===》见Twisted安装
a. pip3 install wheel
b. 下载twisted http:
/
/
www.lfd.uci.edu
/
~gohlke
/
pythonlibs
/
#twisted
c. 进入下载目录,执行 pip3 install Twisted‑
17.1
.
0
‑cp35‑cp35m‑win_amd64.whl
d. pip3 install pywin32
e.
pip3 install scrapy
3.基础使用===》相关命令都是在命令行执行
3.1.创建项目:scrapy startproject 项目名称
3.2.创建爬虫应用程序:
cd project_name(进入项目目录)
scrapy genspider 应用名称 爬取网页的起始url (例如:scrapy genspider qiubai www.qiushibaike.com)
在步骤2执行完毕后,会在项目的spiders中生成一个应用名的py爬虫文件
3.3.设置修改settings.py配置文件相关配置
3.4.执行爬虫程序:scrapy crawl 应用名称
3.5.执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储
scrapy crawl qiubai -o qiubai.json scrapy crawl qiubai -o qiubai.xml scrapy crawl qiubai -o qiubai.csv
项目基本结构和各个目录的意义
1 project_name/ 2 scrapy.cfg: 3 project_name/ 4 __init__.py 5 items.py 6 pipelines.py 7 settings.py 8 spiders/ 9 __init__.py
应用名称.py 10 11 scrapy.cfg 项目的主配置信息。(真正爬虫相关的配置信息在settings.py文件中) 12 items.py 设置数据存储模板,用于结构化数据,如:Django的Model 13 pipelines 数据持久化处理 14 settings.py 配置文件,如:递归的层数、并发数,延迟下载等 15 spiders 爬虫目录,如:创建文件,编写爬虫解析规则
执行完创建应用命令后,打开文件会显示出如下页面
1 # -*- coding: utf-8 -*- 2 import scrapy 3 4 class QiubaiSpider(scrapy.Spider): 5 name = 'qiubai' #应用名称 6 #允许爬取的域名(如果遇到非该域名的url则爬取不到数据) 7 allowed_domains = ['https://www.qiushibaike.com/'] 8 #起始爬取的url 9 start_urls = ['https://www.qiushibaike.com/'] 10 11 #访问起始URL并获取结果后的回调函数,该函数的response参数就是向起始的url发送请求后,获取的响应对象.该函数返回值必须为可迭代对象或者NUll 12 def parse(self, response): 13 print(response.text) #获取字符串类型的响应内容 14 print(response.content)#获取字节类型的相应内容
修改settings相关配置
修改内容及其结果如下: 19行:USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit