BOT_NAME = '项目名' #项目名
SPIDER_MODULES = ['Baidu.spiders']
NEWSPIDER_MODULE = 'Baidu.spiders' #爬虫文件所在位置
LOG_LEVEL = "WARNING" #设置显示出来的日志级别
LOG_FILE = './log文件名.log #设置日志输出到文件(不会显示在终端了)
USER_AGENT = 'Mozilla/5.0' #在这儿指定你的User-Agent
ROBOTSTXT_OBEY = False #是否遵循robot协议(君子协议),一般设置False不遵守,咳咳
CONCURRENT_REQUESTS = 32 #最大线程并发量(下载器基于多线程的),一次性从调度器中会出32个地址,默认16个并发
DOWNLOAD_DELAY = 0.5 #下载延迟时间,抓了一个页面,等待0.5秒再抓下一页,和上面的concurrent_requests作用相反
COOKIES_ENABLED = False #是否启用cookie,默认禁用cookie,如果没有cookie就能爬数据,就别开,因为cookie是被反爬的一个点
#配置请求头headers
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}
#蜘蛛中间件
SPIDER_MIDDLEWARES = {
'项目名.middlewares.BaiduSpiderMiddleware': 543,
}
#下载器中间件
DOWNLOADER_MIDDLEWARES = {
'Baidu.middlewares.BaiduDownloaderMiddleware': 543,
}
#管道文件:可以设置多个管道用于不同的数据存储方式(mysql,mongodb等),数字表示优先级
ITEM_PIPELINES = {
'Baidu.pipelines.BaiduPipeline': 300, #包名.模块名.类名
scrapy settings.py中常用变量详解
最新推荐文章于 2021-03-18 11:47:16 发布