spider [sbyde]
如何入手
1.在setting 中修改
ROBOTSTXT_OBEY = False #将True 改成False 不遵守协议
修改请求头
DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' }
打开
ITEM_PIPELINES = { 'gsww.pipelines.GswwPipeline': 300, } 值越小优先级越高
2.spider 在类中写爬虫 测试所写的爬虫代码可在项目文件下scrapy crawl 爬虫名没有后缀
yield前先导入
from ..items import GswwItem(替换成items中的类名) 并在__init__存且为空