Python-玩转数据-Scrapy中Spiders

最新推荐文章于 2024-08-05 20:06:05 发布

人猿宇宙

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量774

点赞数 1

分类专栏： python-玩转数据-网络数据采集文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s_unbo/article/details/122885998

版权

一、Spiders工作流程：

Spiders是Scrapy中最重要的地方，它定义了如何爬取及解析数据，可以说Spiders是Scrapy框架中的核心所在。

根据初始的urls生成requests对象并指定处理requests对象response的回调方法。初始的urls是由spider的start_urls属性指定的，然后默认调用start_requests方法生成对应的requests对象，处理requests对象response的默认回调方法是parse。
在回调方法里，解析response的内容并返回希望提取的数据，可以返回字典格式的数据，Item对象，request对象或者是这些对象的迭代器。如果是返回的request对象，同样也要指定其的回调方法（可以是当前的这一个），然后scrapy也会同样的处理这些request对象：获取他们的response，使用回调方法解析并返回数据。
在回调方法里，使用scrapy的selector（选择器）来提取response里的数据并返回（也可以使用其他的解析工具，如BeautifulSoup、lxml等）。
最后从spider返回的数据，我们可以通过Item Pipeline写入数据库或使用feed exports保存到文件中。

虽然该循环对任何类型的spider都(多少)适用，但scrapy仍然为了不同的需求提供了多种默认spider。之后将讨论这些spider。

二、Spider属性功能定义

scrapy

最简单的spider：scrapy.spiders.Spider

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。