Scrapy框架学习 - 爬取Boss直聘网Python职位信息

最新推荐文章于 2024-01-11 21:19:47 发布

VIP文章「已注销」

最新推荐文章于 2024-01-11 21:19:47 发布

阅读量1.7k

点赞数 2

文章标签： python 爬虫

本文链接：https://blog.csdn.net/topleeyap/article/details/78907149

版权

分析

使用CrawlSpider结合LinkExtractor和Rule爬取网页信息

LinkExtractor用于定义链接提取规则，一般使用allow参数即可

LinkExtractor(allow=(), # 使用正则定义提取规则
              deny=(), 	# 排除规则
              allow_domains=(), # 限定域名范围
              deny_domains=(),  # 排除域名范围
              restrict_xpaths=(), # 使用xpath定义提取队则
              tags=('a', 'area'), 
              attrs=('href',), 
              canonicalize=False,
              unique=True, 
              process_value=None,
              deny_extensions=None, 
              restrict_css=(),		# 使用css选择器定义提取规则
              strip=True):

Rule用于定义CrawlSpider的爬取规则，由Spider内部自动识别，提交请求、获取响应，交给callback指定的回调方法处理response

最低0.47元/天解锁文章

优惠劵

「已注销」

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Scrapy框架学习 - 爬取Boss直聘网Python职位信息

分析使用CrawlSpider结合LinkExtractor和Rule爬取网页信息LinkExtractor用于定义链接提取规则，一般使用allow参数即可LinkExtractor(allow=(), # 使用正则定义提取规则 deny=(), # 排除规则 allow_domains=(), # 限定域名范围
复制链接

扫一扫