Scrapy配置代理过程详解

最新推荐文章于 2024-06-23 10:28:56 发布

AI_Frank

最新推荐文章于 2024-06-23 10:28:56 发布

阅读量1.4k

点赞数 1

分类专栏：爬虫文章标签： python scrapy

本文链接：https://blog.csdn.net/qq_30653631/article/details/105312168

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

最近在学习过程中，遇到了网站的反爬机制，由于不是很严格，所以使用代理即可解决，并把自己的具体配置过程总结如下：

第一步：修改middlewares文件

from .settings import USER_AGENTS
from .settings import PROXIES
import random
import base64
# 随机浏览器
class RandomUserAgent:
    def process_request(self,request,spider):
        useragent = random.choice(USER_AGENTS) #随机选择一个代理
        request.headers.setdefault("User-Agent",useragent) #代理
# 随机代理
class RandomProxy:
    def process_request(self,request,spider):
        proxy = random.choice(PROXIES)
        # 没有代理用户密码
        if proxy["user_passwd"] is None:
            request.meta["proxy"] = "http://" + proxy["ip_port"]
        else:
            # 账户密码进行编码操作
            base64_userpasswd = base64.b64encode(proxy["user_passwd"].encode("utf-8"))
            request.headers["Proxy-Authorization"] = "Basic " + base64_userpasswd.decode("utf-8")
            request.meta["proxy"] = "http://" + proxy["ip_port"]

（注：这里主要用于随机生成代理浏览器和地址，对于随机代理这块，如果代理有用户名密码，需要使用base64进行加密处理）
第二步：修改setting配置文件
1.设置默认代理

USER_AGENT = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;'

（这个只需要将注释打开，后面修改为代理浏览器即可）

2.修改ROBOTSTXT_OBEY属性为false

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

3.禁止cookie

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

4.启用下载中间组件

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   # 配置代理
   'csdn.middlewares.RandomUserAgent': 100,
   'csdn.middlewares.RandomProxy': 200,
}

（注：这里的代理是第一步中配置的，后面的数值100，200为官方默认数值）
5.添加浏览器和ip的代理列表

PROXIES = 
[
	{"ip_port":"192.168.17.2","user_passwd":None}
]
USER_AGENTS = [
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)',
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)',
    'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
    'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',
    'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
    'Mozilla/5.0 (Linux; U; Android 4.0.3; zh-cn; M032 Build/IML74K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30',
    'Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13'
]

（注：这个主要是用来第一步中随机生成代理ip和浏览器，我这里只用了一个ip，如果你有多个可以随意添加）

经过以上的配置，scrapy就会经过代理去访问页面从而获取数据了

AI_Frank

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Scrapy配置代理过程详解

最近在学习过程中，遇到了网站的反爬机制，由于不是很严格，所以使用代理即可解决，并把自己的具体配置过程总结如下：第一步：修改middlewares文件from .settings import USER_AGENTSfrom .settings import PROXIESimport randomimport base64# 随机浏览器class RandomUserAgent:...
复制链接

扫一扫

专栏目录