爬虫12-scrapy框架settings的解读

最新推荐文章于 2021-04-28 15:08:55 发布

qwerLoL123456

最新推荐文章于 2021-04-28 15:08:55 发布

阅读量210

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/qwerLoL123456/article/details/82559564

版权

爬虫专栏收录该内容

16 篇文章 1 订阅

订阅专栏

BOT_NAME
默认: 'scrapybot'

当您使用 startproject 命令创建项目时其也被自动赋值。


CONCURRENT_ITEMS
默认: 100

Item Processor(即 Item Pipeline) 同时处理(每个 response 的)item 的最大值。


CONCURRENT_REQUESTS
默认: 16

Scrapy downloader 并发请求(concurrent requests)的最大值。



DEFAULT_REQUEST_HEADERS
默认: 如下
{
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}

Scrapy HTTP Request 使用的默认 header。


DEPTH_LIMIT
默认: 0

爬取网站最大允许的深度(depth)值。如果为 0，则没有限制。


DOWNLOAD_DELAY
默认: 0

下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度，减
轻服务器压力。同时也支持小数:
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
默认情况下，Scrapy 在两个请求间不等待一个固定的值， 而是使用 0.5 到 1.5 之间的一个
随机值 * DOWNLOAD_DELAY 的结果作为等待间隔。


DOWNLOAD_TIMEOUT
默认: 180

下载器超时时间(单位: 秒)。


ITEM_PIPELINES
默认: {}

保存项目中启用的 pipeline 及其顺序的字典。该字典默认为空，值(value)任意，不过值
(value)习惯设置在 0-1000 范围内，值越小优先级越高。
ITEM_PIPELINES = {
'mySpider.pipelines.SomethingPipeline': 300,
'mySpider.pipelines.ItcastJsonPipeline': 800,
}


LOG_ENABLED
默认: True

是否启用 logging。


LOG_ENCODING
默认: 'utf-8'

logging 使用的编码。


LOG_LEVEL
默认: 'DEBUG'

log 的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。


USER_AGENT
默认: "Scrapy/VERSION (+http://scrapy.org)"

爬取的默认 User-Agent，除非被覆盖。


PROXIES： 代理设置
示例：
PROXIES = [
 {'ip_port': '111.11.228.75:80', 'password': ''},
 {'ip_port': '120.198.243.22:80', 'password': ''},
 {'ip_port': '111.8.60.9:8123', 'password': ''},
 {'ip_port': '101.71.27.120:80', 'password': ''},
 {'ip_port': '122.96.59.104:80', 'password': ''},
 {'ip_port': '122.224.249.122:8088', 'password':''},
]


COOKIES_ENABLED = False
禁用 Cookies

qwerLoL123456

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫12-scrapy框架settings的解读

BOT_NAME默认: 'scrapybot'当您使用 startproject 命令创建项目时其也被自动赋值。CONCURRENT_ITEMS默认: 100Item Processor(即 Item Pipeline) 同时处理(每个 response 的)item 的最大值。CONCURRENT_REQUESTS默认: 16Scrapy downloader 并...
复制链接

扫一扫