python 使用代理ip爬虫

最新推荐文章于 2023-07-15 00:45:18 发布

为援不可图

最新推荐文章于 2023-07-15 00:45:18 发布

阅读量4w

点赞数 3

分类专栏：技术之路文章标签： python

本文链接：https://blog.csdn.net/qq_32113189/article/details/114069874

版权

技术之路专栏收录该内容

62 篇文章 2 订阅

订阅专栏

Python 使用代理ip爬虫

爬虫定义
代理ip
结束

爬虫定义

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫百度百科爬虫.

代理ip

为什么要用代理ip

随着信息的越来越庞大，获取数据的途径也不断增多，各个渠道都不会让使用者轻易的采集到本网的信息，而通过ip访问的频率可以对该ip进行判断，是否属于脚本机器在用，从而进行拦截，导致使用者不能采集该网站的信息。

代理ip来源

目前免费的ip来源有很多，比如：
站大爷
 快代理
 芝麻代理
等这些每日提供一些免费的ip网站，也可以进行注册长期使用。
另外，我们也可以手动去采集一些ip，通过脚本自动判断该ip是否可用，加入到ip池中。

如何代理

import requests
proxy = {
    'http': '223.241.22.100:4287'
}
response = requests.get("http://httpbin.org/ip",proxies=proxy)
print(response.text)

通过使用requests的方式，我们规定了一个字典，将’http’: '223.241.22.100:4287’作为一对插入进去，在请求的同时，将字典添加到参数当中，就完成了本次的ip代理。

简单吗

ip代理真的像以上说的那么简单吗？其实不是的，以上只是ip代理基本的格式，我们在用的时候需要注意以下几个方面：

ip是否有效，我们拿到一个ip后，不能直接用，而是需要判断一下这个ip是否可用，方法很简单，判断一下返回的code码即可；
请求的链接是http还是https，这两者的请求方法虽然一样，但是，ip代理可大不一样，如下：

proxy = {
    'http': '223.241.22.100:4287',
    'https': '223.241.22.100:4287'
}

要是需要访问http开头的链接，就需要http开头的ip代理，同样，如果访问https开头的链接，就需要https开头的ip代理，否则，用http代理的IP访问https的链接是不会成功的；
3. try Except，需要在第一步判断ip是否有效时进行使用，防止因为ip的不可用而意外导致程序中断。

结束

非常高兴能和小伙伴们分享本次的心得，希望能够帮助到大家，如果有什么问题，欢迎大家留言或者QQ：1143948594。

为援不可图

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
python 使用代理ip爬虫

Python 使用代理ip爬虫爬虫定义代理ip为什么要用代理ip代理ip来源如何代理简单吗结束爬虫定义网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫百度百科爬虫.代理ip为什么要用代理ip随着信息的越来越庞大，获取数据的途径也不断增多，各个渠道都不会让使用者轻易的采集到本网的信息，而通过ip访问的频率可以对该ip进行判断，是否属于脚本机器在用，
复制链接

扫一扫