python的爬虫笔记（4）scrapy框架学习

mittyQAQ

于 2020-07-22 08:21:41 发布

阅读量104

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_43525209/article/details/107455976

版权

python 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

本文介绍了Scrapy框架的基本组成部分，包括Engine、Scheduler、Downloader和Spiders。重点讲解了Spiders如何处理Response来获取信息，以及如何使用Item Pipeline进行数据存储或处理。通过实例展示了创建Scrapy项目、生成Spider、调用爬虫以及在Shell中进行网页元素定位的步骤。

摘要由CSDN通过智能技术生成

Scrapy Engine：多进程代码，提供并发的支持。已经实现好的，不需要修改。
Scheduler（调度器）：存储以及调度（URL+函数）=Request。已经实现好的，不需要修改。
Downloader（下载器）：跟request.get的部分封装到这里面。通过Request下载返回值（HTML，JSON），RESPONSE。已经实现好的，不需要修改。
Spiders（蜘蛛）：获取到了Response之后，需要定位具体信息。需要自己写的。
item pipeline（项目管道）:存储或者是急需处理具体信息。需要自己写的。

新建一个Scrapy的项目
scrapy startproject name
新建Spider
scrapy genspider jobbole jobbole.com
调用某个爬虫（这里调用 jobbole）执行后会生成HTML文件
scrapy crawl jobbole

填想要获取的页面，进入shell 模式
scrapy shell http://python.jobbole.com/all-posts/
获得的是在这里插入图片描述
定位文章url
response.xpath(’//a[@class=“archive-title”]/@href’)
获取到selector，如果想把data取出来
response.xpath(’//a[@class=“archive-title”]/@href’).extract()
定位文章标题
response.xpath(’/html/head/title/text()’)

获取data
response.xpath(’/html/head/title/text()’).extract()[0]
或者（建议用这个）
response.xpath(’/html/head/title/text()’).extract_first(‘没有标题’)

mittyQAQ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python的爬虫笔记（4）scrapy框架学习

Scrapy Engine：多进程代码，提供并发的支持。已经实现好的，不需要修改。Scheduler（调度器）：存储以及调度（URL+函数）=Request。已经实现好的，不需要修改。Downloader（下载器）：跟request.get的部分封装到这里面。通过Request下载返回值（HTML，JSON），RESPONSE。已经实现好的，不需要修改。Spiders（蜘蛛）：获取到了Response之后，需要定位具体信息。需要自己写的。item pipeline（项目管道）:存储或者是急需处理具体
复制链接

扫一扫

专栏目录