spider
LittleCookie_
这个作者很懒,什么都没留下…
展开
-
python scrapy爬虫框架settings相关配置
# 君子协议ROBOTSTXT_OBEY = False# 解决url参数过长爬虫不爬取问题,默认长度是 2083URLLENGTH_LIMIT = 5000# 爬虫结束后是否保留指纹True:保留 False:清除 如果后期需要增量试爬取建议打开SCHEDULER_PERSIST = True# 最大并发请求数(默认为16)CONCURRENT_REQUESTS = 32# timeout 为15sDOWNLOAD_TIMEOUT = 15# 重新请求RETRY_ENABL原创 2021-04-28 15:08:55 · 222 阅读 · 0 评论 -
python-代理池proxy-demo-以及scrapy中使用
简单的代理池demo#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : CZW# @Contact : czw011122@163.com# 简单的代理池demoimport redis, requestsREDIS_HOST = '127.0.0.1'REDIS_PORT = 6379REDIS_PARAMS = { 'password': '',}class RandomPorxy: def _原创 2021-04-20 11:34:02 · 206 阅读 · 1 评论