Scrapy安装
Scrapy介绍
scrapy是一个爬取网站数据,提供结构性数据而编写的应用框架,
只需少量的代码,就能够快速的抓取
使用了Twisted异步网络框架,可以加快我们的下载速度(区别于同步,指完成一件事之前,可以做另一件事)
将所需模块封装起来,类似于多线程,同时进行下载和网站请求,同时请求多个网页
模块相互之间独立全都由中心引擎来处理 如果一个发生错误不会导致其他模块的阻塞
Scrapy Engine 总指挥负责数据和信号的在不同模块间的传递
调度器 一个队列,存放引擎发过来的request请求
Downloader:下载把引擎发过来的requests对象,并返回给引擎
Spider 处理引擎发过来的response,提取数据,提取url,并交给引擎
Item Pipeline 处理引擎传过来的数据,比如存储
编写scrapy项目
scrapy startproject wxapp
cd startproject
scrapy genspider example "example.com"
#在项目中使用shell脚本测试xpath语法
scrapy shell
response.xpath("//div/@text").get()
#导入lxml解析字符
from lxml import etree
import requests
#设置请求头
headers={
'useragent':" ",
}
response=requests.get('' ") #获取get请求
html=etree.HTML(response.text) #默认解析方式
#response.content.decode(' ') #使用自定义解码方式解码response.text
div=html.xpath(' ') #编写xpath语法获取想要的数据
Scrapy框架使用
使用 scrapy startproject project 建立Scrapy项目
进入项目文件夹,使用scrapy genspider example example.com生成Spider文件
然后在pycharm中打开项目,编写爬虫