今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
分析
使用CrawlSpider结合LinkExtractor和Rule爬取网页信息
LinkExtractor用于定义链接提取规则,一般使用allow参数即可
LinkExtractor(allow=(), # 使用正则定义提取规则
deny=(), # 排除规则
allow_domains=(), # 限定域名范围
deny_domains=(), # 排除域名范围
restrict_xpaths=(), # 使用xpath定义提取队则
tags=('a', 'area'),
attrs=('href',),
canonicalize=False,
unique=True,
process_value=None,
deny_extensions=None,
restrict_css=(), # 使用css选择器定义提取规则
strip=True):
Rule用于定义CrawlSpider的爬取规则,由Spider内部自动识别,提交请求、获取响应,交给callback指定的回调方法处理response
如果指定了callback,参数follow默认为False;如果callback为None,follow默认为True
Rule(link_extractor, # LinkExtractor对象,必选参数
callback=None,