scrapy settings.py中常用变量详解

最新推荐文章于 2021-03-18 11:47:16 发布

俞泰鑫

最新推荐文章于 2021-03-18 11:47:16 发布

阅读量221

点赞数

分类专栏： spider #python 文章标签： python

本文链接：https://blog.csdn.net/god_yutaixin/article/details/103736225

版权

#python 同时被 2 个专栏收录

46 篇文章 2 订阅

订阅专栏

spider

23 篇文章 0 订阅

订阅专栏

BOT_NAME = '项目名'	#项目名

SPIDER_MODULES = ['Baidu.spiders']
NEWSPIDER_MODULE = 'Baidu.spiders'	#爬虫文件所在位置

LOG_LEVEL = "WARNING"	#设置显示出来的日志级别
LOG_FILE = './log文件名.log	#设置日志输出到文件(不会显示在终端了)
USER_AGENT = 'Mozilla/5.0'	#在这儿指定你的User-Agent

ROBOTSTXT_OBEY = False   #是否遵循robot协议(君子协议),一般设置False不遵守,咳咳

CONCURRENT_REQUESTS = 32    #最大线程并发量(下载器基于多线程的),一次性从调度器中会出32个地址，默认16个并发

DOWNLOAD_DELAY = 0.5  #下载延迟时间，抓了一个页面，等待0.5秒再抓下一页,和上面的concurrent_requests作用相反

COOKIES_ENABLED = False #是否启用cookie,默认禁用cookie,如果没有cookie就能爬数据，就别开，因为cookie是被反爬的一个点

#配置请求头headers
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
		}

#蜘蛛中间件
SPIDER_MIDDLEWARES = {
   '项目名.middlewares.BaiduSpiderMiddleware': 543,
   	}

#下载器中间件
DOWNLOADER_MIDDLEWARES = { 
	   'Baidu.middlewares.BaiduDownloaderMiddleware': 543,
		}

#管道文件：可以设置多个管道用于不同的数据存储方式(mysql,mongodb等)，数字表示优先级
ITEM_PIPELINES = {
	   'Baidu.pipelines.BaiduPipeline': 300,    #包名.模块名.类名

俞泰鑫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
scrapy settings.py中常用变量详解

BOT_NAME = '项目名' #项目名SPIDER_MODULES = ['Baidu.spiders']NEWSPIDER_MODULE = 'Baidu.spiders' #爬虫文件所在位置USER_AGENT = 'Mozilla/5.0' #在这儿指定你的User-AgentROBOTSTXT_OBEY = False #是否遵循robot协议(君子协议),一般设置F...
复制链接

扫一扫

专栏目录