scrapy通用随机下载延迟、IP代理、UA

最新推荐文章于 2023-05-16 17:04:23 发布

走在下雨天的人

最新推荐文章于 2023-05-16 17:04:23 发布

阅读量4k

点赞数 1

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/qq_42988748/article/details/84493004

版权

本文介绍了如何在Scrapy爬虫项目中配置随机下载延迟，以避免频繁请求导致的封禁问题。同时，详细阐述了设置IP代理和User-Agent的方法，以增强爬虫的匿名性和多样性，确保爬取过程更加稳定。

摘要由CSDN通过智能技术生成

在这里插入图片描述

main.py文件

# -*- coding:utf-8 -*-

from scrapy import cmdline

cmdline.execute('scrapy crawl test'.split())

settings.py文件

# -*- coding: utf-8 -*-

BOT_NAME = 'mytest'

SPIDER_MODULES = ['mytest.spiders']
NEWSPIDER_MODULE = 'mytest.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'mytest (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

#随机下载延迟
RANDOM_DELAY = 2

DOWNLOADER_MIDDLEWARES = {
   # 'mytest.middlewares.MytestDownloaderMiddleware': 543,
   'mytest.middlewares.RandomDelayMiddleware': 100,
   'mytest.middlewares.UserAgentMiddleware': 100,
   # 'mytest.middlewares.ProxyMiddleware': 100,
}
# 代理IP池

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

走在下雨天的人

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
scrapy通用随机下载延迟、IP代理、UA

目录结构main.py文件# -*- coding:utf-8 -*-from scrapy import cmdlinecmdline.execute('scrapy crawl test'.split())settings.py文件# -*- coding: utf-8 -*-BOT_NAME = 'mytest'SPIDER_MODULES = ['myt...
复制链接

扫一扫