python爬虫教程：Scrapy框架爬取Boss直聘网Python职位信息的源码

最新推荐文章于 2024-06-11 18:09:55 发布

程序员浩然

最新推荐文章于 2024-06-11 18:09:55 发布

阅读量2.9k

点赞数 3

分类专栏： python爬虫教程文章标签： python 大数据

本文链接：https://blog.csdn.net/haoxun09/article/details/104682683

版权

今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
分析

使用CrawlSpider结合LinkExtractor和Rule爬取网页信息

LinkExtractor用于定义链接提取规则，一般使用allow参数即可

LinkExtractor(allow=(), # 使用正则定义提取规则
       deny=(), # 排除规则
       allow_domains=(), # 限定域名范围
       deny_domains=(), # 排除域名范围
       restrict_xpaths=(), # 使用xpath定义提取队则
       tags=('a', 'area'), 
       attrs=('href',), 
       canonicalize=False,
       unique=True, 
       process_value=None,
       deny_extensions=None, 
       restrict_css=(), # 使用css选择器定义提取规则
       strip=True):

Rule用于定义CrawlSpider的爬取规则，由Spider内部自动识别，提交请求、获取响应，交给callback指定的回调方法处理response

如果指定了callback，参数follow默认为False；如果callback为None，follow默认为True

Rule(link_extractor, # LinkExtractor对象,必选参数
   callback=None,

最低0.47元/天解锁文章

程序员浩然

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
python爬虫教程：Scrapy框架爬取Boss直聘网Python职位信息的源码

今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧分析使用CrawlSpider结合LinkExtractor和Rule爬取网页信息LinkExtractor用于定义链接提取规则，一般使用allow参数即可LinkExtractor(allow=(), # 使用正...
复制链接

扫一扫