Spider爬虫框架之Spiders模块

最新推荐文章于 2024-08-29 07:40:32 发布

Arckal

最新推荐文章于 2024-08-29 07:40:32 发布

阅读量2.3k

点赞数 1

分类专栏： Scrapy 文章标签： Scrapy Spiders 爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014108439/article/details/79761827

版权

Scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Spiders

Spiders 是一些爬虫类的集合，这些爬虫定义了爬哪些网站、如何去爬这些网站以及如何去从页面抽取结构化数据。

换句话说，Spiders是你定义用于为特定网站（或者在某些情况下是一组网站）抓取和解析页面的自定义行为的地方。

对于爬虫来说，在爬取周期中会经历以下事情：

1，首先生成抓取第一个URL的初始Requests，然后指定一个回调函数，使用从这些请求下载的响应来调用回调函数。

第一个执行请求通过调用start_requests（）方法获得，该方法默认情况下为start_urls和parse方法中指定的URL生成Request作为回调函数。

2，在回调函数中，解析响应（网页），并返回带提取数据的dicts，Item对象，Request对象或这些对象的迭代。

这些请求还将包含一个回调（可能是相同的），然后由Scrapy下载，然后通过指定的回调处理它们的响应。

3，在回调函数中，通常使用选择器Selectors（但您也可以使用BeautifulSoup，lxml或您喜欢的任何机制）解析页面内容，并使用解析的数据生成项目。

4，最后，从爬虫返回的项目通常会持久化到数据库（在某些Pipeline中）或使用Feed导出写入文件。

尽管这个周期适用于（或多或少）任何类型的爬虫，但为了不同的目的，有不同类型的默认爬虫捆绑到了Scrapy中。

参考链接：https://docs.scrapy.org/en/latest/topics/spiders.html

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。