scrapy shell 获取settings设置关闭robot协议
在scrapy项目里只需要在settings里把ROBOTSTXT_OBEY设置为False就行了。
scrapy shell默认为setting默认设置。设置不遵守robot协议加上–setting(双破折号)覆盖和添加设置。
比如:scrapy shell “www.example.com” --setting=“ROBOTSTXT_OBEY=False”
‘LxmlLinkExtractor’ object has no attribute ‘extractor_links’
linkresult = LinkExtractor(allow=(“re”)) #allow 正则 | restrict_xpaths 网页规则 | restrict_css css
linkresult .extract_links(response) # extract_links()从response响应体提取符合linkresult规则的字符串