Python爬虫之Scrapy爬虫框架

最新推荐文章于 2024-08-05 20:06:05 发布

Mi1k7ea

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量3.3k

点赞数

分类专栏：爬虫工具文章标签： Python 爬虫 Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SKI_12/article/details/78840444

版权

本文介绍了如何使用Python的Scrapy框架创建CSDN博客爬虫，详细步骤包括安装Scrapy、创建项目和爬虫模块、使用XPath解析HTML、定义Item和Pipeline、编写下载器中间件RandomUserAgent、实现Scrapy_redis分布式爬虫以及使用MongoDB存储数据。通过实例展示了Scrapy的完整工作流程。

摘要由CSDN通过智能技术生成

Scrapy是一个用Python写的爬虫框架，使用Twisted这个异步网络库来处理网络通信。

这里通过创建CSDN博客爬虫来学习Scrapy爬虫框架。

安装Scrapy：

在Linux上，直接pip install scrapy即可；

在Windows上，需要依次安装pywin32、pyOpenSSL、lxml和scrapy。

本次在Kali上安装，安装成功后能成功看到版本信息：

CSDN博客爬虫项目：

创建爬虫项目：

到相应的目录中在命令行输入：scrapy startproject csdnSpide

接着进入该项目根目录并显示目录结构信息：

scrapy.cfg：项目部署文件

csdnSpider/：该项目的Python模块，可以在此加入代码

csdnSpider/items.py：项目中的item文件

csdnSpider/pipelines.py：项目中的Pipelines文件

csdnSpider/settings.py：项目的配置文件

csdnSpider/spiders/：放置Spider代码的目录

创建爬虫模块：

到spiders目录中编写爬虫模块，创建一个Spider类，需要继承scrapy.Spider类并定义三个属性：name爬虫的名字（必须唯一）、start_urls、parse()

Selector选择器解析HTML内容：

构造XPath，i表示第i篇博文：

每页的文章数量：//*[@class="list_item article_item"]，然后再获取相应的数组大小即可

标题：//*[@id="article_list"]/div[i]/div[1]/h1/span/a/text()

摘要：//*[@id="article_list"]/div[i]/div[2]/text()

链接：//*[@id="article_list"]/div[i]/div[1]/h1/span/a/@href

调试XPath语法是否正确：在命令行输入：scrapy shell "http://blog.csdn.net/ski_12"

接着输入以下命令测试链接的XPath，另外两个元素也是同样则是即可：

response.xpath('//*[@id="article_list"]/div[1]/div[1]/h1/span/a/@href').extract()

没有问题。然后修改代码直接在该文件中进行输出：

运行爬虫：scrapy crawl csdn

正常解析出来了。

接着添加翻页操作的解析：

使用re模块正则匹配的表达式<a href="(\S*)">下一页</a>

再次运行爬虫：scrapy crawl csdn

定义Item：

Item对象是一种简单的容器，用来保存爬取的诗句，使用简单的class定义语法以及Field对象来声明。定义存储数据的Item类时，需要继承scrapy.Item。Item的操作方式与字典的操作方式相似。

最低0.47元/天解锁文章

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。