爬虫实践---Scrapy-豆瓣电影影评&深度爬取

最新推荐文章于 2022-06-09 09:49:57 发布

锅巴QAQ

最新推荐文章于 2022-06-09 09:49:57 发布

阅读量2k

点赞数

分类专栏： Python爬虫文章标签： Scrapy 爬虫豆瓣

本文链接：https://blog.csdn.net/Pit3369/article/details/77149940

版权

本文介绍了使用Scrapy进行爬虫实践，重点在于如何利用Link Extractor从豆瓣电影中提取特定的高评分影评。在爬取过程中，遇到的问题包括影评链接的过滤、影评内容中图片和异常标签导致的解析错误，这些都需要在后续的爬取策略中逐步解决。

摘要由CSDN通过智能技术生成

Link Extractors
Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡

Scrapy提供了 scrapy.linkextractors import LinkExtractor , 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡

每个link extractor有唯一的公共方法是 extract_links ,它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象｡Link Extractors,要实例化一次并且 extract_links 方法会根据不同的response调用多次提取链接｡

Link Extractors在 CrawlSpider 类(在Scrapy可用)中使用, 通过一套规则,但你也可以用它在你的Spider中, 即使你不是从 CrawlSpider 继承的子类, 因为它的目的很简单: 提取链接｡

内置Link Extractor 参考
Scrapy提供的Link Extractor类在 scrapy.linkextractors 模块提供｡默认的link extractor是 LinkExtractor , 其实就是 LxmlLinkExtractor:

from scrapy.linkextractors import LinkExtractor

例如,从这段代码中提取链接:

<a href="javascript:goToPage('../other/page.html'); return false">Link text</a>
你可以使用下面的这个 process_value 函数:

def process_value(value):
    m = re.search("javascript:goToPage\('(.*?)'", value)
    if m:
        return m.group(1)

正则表达式中---

‘.’匹配任意除换行符意外的字符

'*'匹配前一个字符0次或无限次

'?'匹配前一个字符0次或1次

LxmlLinkExtractor
class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), restrict_css=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)
---allow（正则表达式（或列表）） - （绝对）URL必须匹配才能被提取的单个正则表达式（或正则表达式列表）。如果没有给出（或空），它将匹配所有链接。

最低0.47元/天解锁文章

锅巴QAQ

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫实践---Scrapy-豆瓣电影影评&深度爬取

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡Scrapy提供了 scrapy.linkextractors import LinkExtractor , 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡每个link e
复制链接

扫一扫

专栏目录