学习笔记(29):第二章： urllib实战与反爬策略-反爬策略之代理IP

最新推荐文章于 2024-04-28 00:56:31 发布

Sepember

最新推荐文章于 2024-04-28 00:56:31 发布

阅读量143

点赞数

分类专栏：研发管理文章标签：编程语言 Python 分布式爬虫数据

本文链接：https://blog.csdn.net/qq_41800209/article/details/104599855

版权

本文介绍了如何在Python爬虫中利用代理IP进行反爬，旨在通过大量代理分散访问压力，降低IP被封风险。内容包括使用urllib的request类配置代理IP，以及在Scrapy框架中和scrapy-redis项目中如何实现代理IP池，以优化爬虫性能。

摘要由CSDN通过智能技术生成

立即学习:https://edu.csdn.net/course/play/25663/309176?utm_source=blogtoedu

反爬机制02：使用代理ip

目的：为了尽可能使爬虫的访问更趋向于正常访问，使用上万个代理ip完成对目标网站的访问，抓取相关的数据，分散访问压力，降低同一ip对目标网站的访问频次，从而降低本地ip被封的风险。此外在正式的开发环境中，由于数据涉及到其他公司的权益，为了避免不必要的麻烦，也是会采用代理ip的方式对目标网站的数据进行抓取。

在使用urllib模块的request类进行数据的爬取时，代理ip的构建。

import urllib.request as ur

#访问远程的代理ip的api接口，得到代理ip
proxy_data = ur.urlopen(代理ip的api接口）.read().decode('utf-8')

#在proxyHander中设置代理ip
proxy_open = ur.proxyHander({'http':proxyHander})

#构建request对象
request = ur.request(url)

#用代理ip去访问目标页面
response = proxy_open.open(request)

在scrapy框架中设置代理ip

# 在middleware中的downloadmiddleware下面设置代理ip
def pr

最低0.47元/天解锁文章

Sepember

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记(29):第二章： urllib实战与反爬策略-反爬策略之代理IP

通过本章课程的学习，分析并解决各个目标网站的反爬机制，搭建自己的多机分布式爬虫系统，完成招标平台数据采集项目。
复制链接

扫一扫

专栏目录