Option | 含义 |
---|---|
BOT_NAME | 项目名 |
SPIDER_MODULES | 爬虫位置 |
NEWSPIDER_MODULE | 新建爬虫位置 |
USER_AGENT | 设置请求头中的User-Agent |
ROBOTSTXT_OBEY | 遵守robots协议(网站中可以爬取的范围) |
CONCURRENT_REQUESTS | 爬虫的最大并发请求数 |
DOWNLOAD_DELAY | 对同一网站要求延迟(默认值:0秒) |
CONCURRENT_REQUESTS_PER_DOMAIN | 每个域名请求并发数量 |
CONCURRENT_REQUESTS_PER_IP | 每个ip请求并发数量 |
COOKIES_ENABLED | 是否启用Cookie(默认启用) |
TELNETCONSOLE_ENABLED | 是否启用Telnet控制台(默认启用) |
DEFAULT_REQUEST_HEADERS | 覆写默认请求头 |
USER_AGENT | 设置请求头中的User-Agent |
SPIDER_MIDDLEWARES | 启用或者禁用爬虫中间件 |
DOWNLOADER_MIDDLEWARES | 启用或禁用爬虫下载中间件 |
ITEM_PIPELINES | 配置项目管道(值越小权重越大就先执行) |
AUTOTHROTTLE_ENABLED | 开启访问频率限制 |
AUTOTHROTTLE_START_DELAY | 访问开始延迟 |
AUTOTHROTTLE_MAX_DELAY | 访问之间最大延迟 |
AUTOTHROTTLE_TARGET_CONCURRENCY | 设置并行发给每台远程服务器的请求数量 |
AUTOTHROTTLE_DEBUG | 启用为收到的每个响应显示限制状态 |
HTTPCACHE_ENABLED | 开启缓存 |
HTTPCACHE_EXPIRATION_SECS | 缓存超时时间 |
HTTPCACHE_DIR | 缓存存放目录 |
HTTPCACHE_IGNORE_HTTP_CODES | 缓存忽略的Http状态码 |
HTTPCACHE_STORAGE | 缓存存储的插件 |
python-scrapy-settings.py
最新推荐文章于 2023-07-03 17:01:47 发布