学习笔记(29):第二章: urllib实战与反爬策略-反爬策略之代理IP

本文介绍了如何在Python爬虫中利用代理IP进行反爬,旨在通过大量代理分散访问压力,降低IP被封风险。内容包括使用urllib的request类配置代理IP,以及在Scrapy框架中和scrapy-redis项目中如何实现代理IP池,以优化爬虫性能。
摘要由CSDN通过智能技术生成

反爬机制02:使用代理ip

目的:为了尽可能使爬虫的访问更趋向于正常访问,使用上万个代理ip完成对目标网站的访问,抓取相关的数据,分散访问压力,降低同一ip对目标网站的访问频次,从而降低本地ip被封的风险。此外在正式的开发环境中,由于数据涉及到其他公司的权益,为了避免不必要的麻烦,也是会采用代理ip的方式对目标网站的数据进行抓取。

  • 在使用urllib模块的request类进行数据的爬取时,代理ip的构建。 
  1. import urllib.request as ur
    
    #访问远程的代理ip的api接口,得到代理ip
    proxy_data = ur.urlopen(代理ip的api接口).read().decode('utf-8')
    
    #在proxyHander中设置代理ip
    proxy_open = ur.proxyHander({'http':proxyHander})
    
    #构建request对象
    request = ur.request(url)
    
    #用代理ip去访问目标页面
    response = proxy_open.open(request)
    
  •  在scrapy框架中设置代理ip
    # 在middleware中的downloadmiddleware下面设置代理ip
    def pr
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值