python scrapy爬虫框架settings相关配置

# 君子协议
ROBOTSTXT_OBEY = False

# 解决url参数过长爬虫不爬取问题,默认长度是 2083
URLLENGTH_LIMIT = 5000

# 爬虫结束后是否保留指纹True:保留 False:清除 如果后期需要增量试爬取建议打开
SCHEDULER_PERSIST = True

# 最大并发请求数(默认为16)
CONCURRENT_REQUESTS = 32

# timeout 为15s
DOWNLOAD_TIMEOUT = 15

# 重新请求
RETRY_ENABLED = True

# 重试次数
RETRY_TIMES = 5

# 请求头
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

# 下载中间件
DOWNLOADER_MIDDLEWARES = {
    
}

# 管道
ITEM_PIPELINES = {
    
}

# 日志
# LOG_LEVEL = 'INFO'
# FEED_EXPORT_ENCODING = 'utf-8'


# redis配置
# REDIS_HOST = '127.0.0.1'  # ip
# REDIS_PORT = 6379  # 端口
# REDIS_PARAMS = {
#     'password': '',  # 密码
# }


# scrapy-redis分布式配置 pip install scrapy-redis
# 重新指定调度器: 启用Redis调度存储请求队列!!!
# SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 重新指定去重机制: 确保所有的爬虫通过Redis去重!!!
# DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"


# 布隆过滤器配置 pip install scrapy-redis-bloomfilter
# 重新指定调度器
# SCHEDULER = "scrapy_redis_bloomfilter.scheduler.Scheduler"
# 重新指定去重机制
# DUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"
# 使用哈希函数的数量,默认为6
# BLOOMFILTER_HASH_NUMBER = 6
# 使用Bloomfilter的Redis内存,30表示2^30 = 128MB,默认为30
# BLOOMFILTER_BIT = 30


# mongodb配置
# MONGO_DB = "mongodb://用户名:密码@ip:端口/"

scrapy-redis 与 scrapy-redis-bloomfilter 不能一起用!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值