scrapy爬虫添加用户代理

最新推荐文章于 2023-07-10 13:30:31 发布

alicelmx

最新推荐文章于 2023-07-10 13:30:31 发布

阅读量2.2k

点赞数 1

分类专栏： python基础知识 python爬虫文章标签：爬虫中间件 scrapy-爬虫代理ip

本文链接：https://blog.csdn.net/alicelmx/article/details/78947884

版权

python基础知识同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

python爬虫

6 篇文章 0 订阅

订阅专栏

第一步：在middlewares.py中增加一个类，取名：ProxyMiddleWare即代理中间件

该代理中间件中会从代理列表中随机选取一个代理。

class ProxyMiddleWare(object):  
    proxy_list=["http://58.87.89.234:31",
    此处省略一堆代理IP
    ]

def process_request(self,request,spider):
    ip = random.choice(self.proxy_list)
    request.meta['proxy'] = ip

第二步：settings中配置这个中间件

DOWNLOADER_MIDDLEWARES = {
   'wechat_spider.middlewares.RandomUserAgent': 10,
   'wechat_spider.middlewares.ProxyMiddleWare': 100,
}

这里的数字是中间件的执行顺序，可以随意指定，只要不重复就行。然后同样在控制台中启动爬虫，没有问题~

注意事项：如何获取IP呢？

IP可以从这个几个网站爬虫获取:快代理、代理66、有代理、西刺代理、guobanjia。
如果出现像下面这种提示:”由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败”或者是这种” 由于目标计算机积极拒绝，无法连接。”那就是IP的问题，更换就行了。。。。
免费代理就是不好用没办法，哎～