python 使用代理ip爬虫

爬虫定义

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫 百度百科爬虫.

代理ip

为什么要用代理ip

随着信息的越来越庞大,获取数据的途径也不断增多,各个渠道都不会让使用者轻易的采集到本网的信息,而通过ip访问的频率可以对该ip进行判断,是否属于脚本机器在用,从而进行拦截,导致使用者不能采集该网站的信息。

代理ip来源

目前免费的ip来源有很多,比如:
站大爷
快代理
芝麻代理
等这些每日提供一些免费的ip网站,也可以进行注册长期使用。
另外,我们也可以手动去采集一些ip,通过脚本自动判断该ip是否可用,加入到ip池中。

如何代理

import requests
proxy = {
    'http': '223.241.22.100:4287'
}
response = requests.get("http://httpbin.org/ip",proxies=proxy)
print(response.text)

通过使用requests的方式,我们规定了一个字典,将’http’: '223.241.22.100:4287’作为一对插入进去,在请求的同时,将字典添加到参数当中,就完成了本次的ip代理。

简单吗

ip代理真的像以上说的那么简单吗?其实不是的,以上只是ip代理基本的格式,我们在用的时候需要注意以下几个方面:

  1. ip是否有效,我们拿到一个ip后,不能直接用,而是需要判断一下这个ip是否可用,方法很简单,判断一下返回的code码即可;
  2. 请求的链接是http还是https,这两者的请求方法虽然一样,但是,ip代理可大不一样,如下:
proxy = {
    'http': '223.241.22.100:4287',
    'https': '223.241.22.100:4287'
}

要是需要访问http开头的链接,就需要http开头的ip代理,同样,如果访问https开头的链接,就需要https开头的ip代理,否则,用http代理的IP访问https的链接是不会成功的;
3. try Except,需要在第一步判断ip是否有效时进行使用,防止因为ip的不可用而意外导致程序中断。

结束

非常高兴能和小伙伴们分享本次的心得,希望能够帮助到大家,如果有什么问题,欢迎大家留言或者QQ:1143948594。

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值