分析
使用CrawlSpider结合LinkExtractor和Rule爬取网页信息
LinkExtractor用于定义链接提取规则,一般使用allow参数即可
LinkExtractor(allow=(), # 使用正则定义提取规则
deny=(), # 排除规则
allow_domains=(), # 限定域名范围
deny_domains=(), # 排除域名范围
restrict_xpaths=(), # 使用xpath定义提取队则
tags=('a', 'area'),
attrs=('href',),
canonicalize=False,
unique=True,
process_value=None,
deny_extensions=None,
restrict_css=(), # 使用css选择器定义提取规则
strip=True):
Rule用于定义CrawlSpider的爬取规则,由Spider内部自动识别,提交请求、获取响应,交给callback指定的回调方法处理response