Scrapy框架使用

Scrapy安装

转载自详解Python安装scrapy的正确姿势

Scrapy介绍

在这里插入图片描述
scrapy是一个爬取网站数据,提供结构性数据而编写的应用框架,
只需少量的代码,就能够快速的抓取
使用了Twisted异步网络框架,可以加快我们的下载速度(区别于同步,指完成一件事之前,可以做另一件事)
将所需模块封装起来,类似于多线程,同时进行下载和网站请求,同时请求多个网页
模块相互之间独立全都由中心引擎来处理 如果一个发生错误不会导致其他模块的阻塞
Scrapy Engine 总指挥负责数据和信号的在不同模块间的传递
调度器 一个队列,存放引擎发过来的request请求
Downloader:下载把引擎发过来的requests对象,并返回给引擎
Spider 处理引擎发过来的response,提取数据,提取url,并交给引擎
Item Pipeline 处理引擎传过来的数据,比如存储
在这里插入图片描述
编写scrapy项目

scrapy startproject wxapp
cd startproject
scrapy genspider example "example.com"
#在项目中使用shell脚本测试xpath语法
scrapy shell
response.xpath("//div/@text").get()
#导入lxml解析字符
from lxml import etree
import requests
#设置请求头
headers={
'useragent':"  ",
}
response=requests.get(''  ")			#获取get请求
html=etree.HTML(response.text)			#默认解析方式
#response.content.decode(' ')			#使用自定义解码方式解码response.text
div=html.xpath(' ')					    #编写xpath语法获取想要的数据

Scrapy框架使用

使用 scrapy startproject project 建立Scrapy项目
在这里插入图片描述
进入项目文件夹,使用scrapy genspider example example.com生成Spider文件
在这里插入图片描述
然后在pycharm中打开项目,编写爬虫

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值