scrapy递归抓取网页数据

最新推荐文章于 2024-05-13 00:51:49 发布

junglezax

最新推荐文章于 2024-05-13 00:51:49 发布

阅读量6.1k

点赞数 1

分类专栏：数据采集文章标签： python scrapy 递归 parse yield

本文链接：https://blog.csdn.net/junglezax/article/details/34844319

版权

本文介绍了如何使用Scrapy的parse方法进行递归抓取网页数据。通过返回BaseItem或Request来实现数据收集。对于当前页的数据，可以直接yield item；如果数据在指向的页面，可返回Request并指定parse_item为callback。当数据分布在多个页面时，利用Request的meta参数传递信息。虽然parse方法不能直接返回item列表，但作为callback的parse_item可以。提取文本时，可使用d.xpath('node()').extract()获取包含HTML的文本，并进一步过滤标签。更多详情及代码示例，参考相关链接。

摘要由CSDN通过智能技术生成

scrapy spider的parse方法可以返回两种值：BaseItem，或者Request。通过Request可以实现递归抓取。

如果要抓取的数据在当前页，可以直接解析返回item（代码中带**注释的行直接改为yield item）；

如果要抓取的数据在当前页指向的页面，则返回Request并指定parse_item作为callback；

如果要抓取的数据当前页有一部分，指向的页面有一部分（比如博客或论坛，当前页有标题、摘要和url，详情页面有完整内容）这种情况需要用Request的meta参数把当前页面解析到的数据传到parse_item，后者继续解析item剩下的数据。

要抓完当前页再抓其它页面（比如下一页），可以返回Request，callback为parse。

有点奇怪的是：parse不能返回item列表，但作为callback的parse_item却可以，不知道为啥。

另外，直接extract()得到的文字不包含<a>等子标签的内容，可改为d.xpath('node()').extract()，得到的是包含html的文本，再过滤掉标签就是纯文本了。

没找到直接得到html的方法。

from scrapy.spider import Spider
from scrapy.selector import Selector

from dirbot.items import Article

import json
import re
import string
from scrapy.http import Request

class Youy