Scrapy框架使用

最新推荐文章于 2024-05-17 17:19:37 发布

如风过境YD

最新推荐文章于 2024-05-17 17:19:37 发布

阅读量122

点赞数

分类专栏： Python编程

本文链接：https://blog.csdn.net/qq_35649945/article/details/92806729

版权

Python编程专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Scrapy安装

转载自详解Python安装scrapy的正确姿势

Scrapy介绍

在这里插入图片描述
scrapy是一个爬取网站数据，提供结构性数据而编写的应用框架，
只需少量的代码，就能够快速的抓取
使用了Twisted异步网络框架，可以加快我们的下载速度（区别于同步，指完成一件事之前，可以做另一件事）
将所需模块封装起来，类似于多线程，同时进行下载和网站请求，同时请求多个网页
模块相互之间独立全都由中心引擎来处理如果一个发生错误不会导致其他模块的阻塞
Scrapy Engine 总指挥负责数据和信号的在不同模块间的传递
调度器一个队列，存放引擎发过来的request请求
Downloader：下载把引擎发过来的requests对象，并返回给引擎
Spider 处理引擎发过来的response，提取数据，提取url,并交给引擎
Item Pipeline 处理引擎传过来的数据，比如存储
在这里插入图片描述
编写scrapy项目

scrapy startproject wxapp
cd startproject
scrapy genspider example "example.com"
#在项目中使用shell脚本测试xpath语法
scrapy shell
response.xpath("//div/@text").get()
#导入lxml解析字符
from lxml import etree
import requests
#设置请求头
headers={
'useragent':"  ",
}
response=requests.get(''  ")			#获取get请求
html=etree.HTML(response.text)			#默认解析方式
#response.content.decode(' ')			#使用自定义解码方式解码response.text
div=html.xpath(' ')					    #编写xpath语法获取想要的数据