# 君子协议
ROBOTSTXT_OBEY = False
# 解决url参数过长爬虫不爬取问题,默认长度是 2083
URLLENGTH_LIMIT = 5000
# 爬虫结束后是否保留指纹True:保留 False:清除 如果后期需要增量试爬取建议打开
SCHEDULER_PERSIST = True
# 最大并发请求数(默认为16)
CONCURRENT_REQUESTS = 32
# timeout 为15s
DOWNLOAD_TIMEOUT = 15
# 重新请求
RETRY_ENABLED = True
# 重试次数
RETRY_TIMES = 5
# 请求头
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}
# 下载中间件
DOWNLOADER_MIDDLEWARES = {
}
# 管道
ITEM_PIPELINES = {
}
# 日志
# LOG_LEVEL = 'INFO'
# FEED_EXPORT_ENCODING = 'utf-8'
# redis配置
# REDIS_HOST = '127.0.0.1' # ip
# REDIS_PORT = 6379 # 端口
# REDIS_PARAMS = {
# 'password': '', # 密码
# }
# scrapy-redis分布式配置 pip install scrapy-redis
# 重新指定调度器: 启用Redis调度存储请求队列!!!
# SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 重新指定去重机制: 确保所有的爬虫通过Redis去重!!!
# DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 布隆过滤器配置 pip install scrapy-redis-bloomfilter
# 重新指定调度器
# SCHEDULER = "scrapy_redis_bloomfilter.scheduler.Scheduler"
# 重新指定去重机制
# DUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"
# 使用哈希函数的数量,默认为6
# BLOOMFILTER_HASH_NUMBER = 6
# 使用Bloomfilter的Redis内存,30表示2^30 = 128MB,默认为30
# BLOOMFILTER_BIT = 30
# mongodb配置
# MONGO_DB = "mongodb://用户名:密码@ip:端口/"
scrapy-redis 与 scrapy-redis-bloomfilter 不能一起用!!!

被折叠的 条评论
为什么被折叠?



