爬虫程序中-代理服务器的设置

我们知道,很多网站上现在都装有反爬虫程序。当我们在爬取某一网站的时候,如果被网站中的反爬虫程序识别,那么我们可能就会进入"黑名单”,会被该网站服务器所屏蔽。

如何很好的解决这个问题呢,如果显示的ip地址不是本机ip地址,而是代理服务器的ip地址。那么就有效的解决了这个问题。

接下来,我们来介绍如何在python爬虫中,使用代理服务器。

方法1:可以在互联网中搜索对应得代理服务器地址。这里我们有已经整理好的,网址:http://www.xicidaili.com/


这里我们使用验证时间较短的,这样成功的概率比较大。比如


接下来我将选用北京的这个ip地址。

以下是使用代理服务器来爬取网站内容的实现代码

#通过代理服务器来爬虫
def use_proxy(proxy_addr,url):
    import urllib.request
    proxy=urllib.request.ProxyHandler({"htt
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值