用Python获取免费代理IP

最新推荐文章于 2024-04-05 09:01:15 发布

「已注销」

最新推荐文章于 2024-04-05 09:01:15 发布

阅读量1.1k

点赞数 2

分类专栏： pytho基础文章标签： python tcp/ip 开发语言

本文链接：https://blog.csdn.net/aliYz/article/details/128038560

版权

pytho基础专栏收录该内容

167 篇文章 26 订阅

订阅专栏

前言

为什么要IP代理：当采集数据, 批量采集数据, 请求速度过快, 网站可能会把你IP封掉 <你的网络进不去这个网站>

IP代理换一个IP, 再去采集请求数据

请添加图片描述

一. 抓包分析数据来源

1. 明确需求:

确定采集网站以及采集数据是什么
获取IP代理, 检测IP代理是否可用

dit = {
    'http': 'http://' + IP:端口
}

2. 分析IP和端口号这两个数据, 请求那个网站可以得到?

F12 或者右键点击检查选择network 刷新网页
分析数据在哪里 --> 通过关键字<我们想要数据>搜索数据来源
请求 https://www.kuaidaili.com/free/ 获取 response 就可以得到我们想要IP和端口的数据

二. 代码实现步骤过程

源码.点击领取即可

发送请求, 模拟浏览器对于url地址发送请求
解析数据, 提取我们想要数据内容
保存数据, 把可用IP代理保存本地,IP代理检测
检测可用之后, 保存IP代理

代码的实现

发送请求

模拟伪装 --> headers 请求头字典数据类型

# 请求链接
url = f'https://www.kuaidaili.com/free/inha/1/'
headers = {
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

解析数据

三种解析方法

re：直接对于字符串数据提取

re.findall(‘匹配什么数据’, ‘什么地方匹配’) 找到我们想要数据内容从什么地方去匹配什么数据从
response.text 里面去匹配 (.?) 其中 (.?) 这段内容就是我们要的数据
() 表示你要的数据, .*? 匹配规则可以匹配任意字符(除了换行符\n)

IP_list = re.findall('<td data-title="IP">(.*?)</td>', response.text)
PORT_list = re.findall('<td data-title="PORT">(.*?)</td>', response.text)

css：根据标签属性提取数据

#list tbody tr td:nth-child(1) 定位标签元
td:nth-child(1) 表示第一个td标签
td:nth-child(1)::text 表示提取第一个td标签里面文本数据
getall() 表示获取所有

IP_list = selector.css('#list tbody tr td:nth-child(1)::text').getall()
PORT_list = selector.css('#list tbody tr td:nth-child(2)::text').getall()

xpath：根据标签节点提取数据

IP_list = selector.xpath('//*[@id="list"]//tbody/tr/td[1]/text()').getall()
PORT_list = selector.xpath('//*[@id="list"]//tbody/tr/td[2]/text()').getall()

for循环遍历提取数据把列表里面元素一个一个提取出来

for IP, PORT in zip(IP_list, PORT_list):
    dit = {
        'http': 'http://' + IP + ':' + PORT,
        'https': 'https://' + IP + ':' + PORT,
    }

print(dit)

检测IP代理是否可用, 请求一个网站携带上IP代理

python学习交流qun：770699889 ### 源码领取
try:
    # 携带IP代理发送请求
    response_1 = requests.get(url='https://www.baidu.com/', headers=headers, proxies=dit, timeout=1)
    # response_1.status_code 获取状态码
    if response_1.status_code == 200:
        print(dit, '这个代理真润')
        use_list.append(dit)
except:
    print(dit, 'He tui~ 用不了')

保存

with open('代理https.txt', mode='w', encoding='utf-8') as f:
    f.write('\n'.join([str(i) for i in use_list]))

因为只是示范，所以一共获只取了45个，然后没一个是可以用的哈哈

请添加图片描述

最后

今天的分享到这里就结束了

顺便给大家推荐一些Python视频教程，希望对大家有所帮助：

Python零基础教学合集

对文章有问题的，或者有其他关于python的问题，可以在评论区留言或者私信我哦
觉得我分享的文章不错的话，可以关注一下我，或者给文章点赞(/≧▽≦)/

请添加图片描述

「已注销」

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
用Python获取免费代理IP

为什么要IP代理：当采集数据, 批量采集数据, 请求速度过快, 网站可能会把你IP封掉 IP代理换一个IP, 再去采集请求数据
复制链接

扫一扫

专栏目录

用Python获取免费代理IP

前言

一. 抓包分析数据来源

1. 明确需求:

2. 分析IP和端口号 这两个数据, 请求那个网站可以得到?

二. 代码实现步骤过程

发送请求

解析数据

检测IP代理是否可用, 请求一个网站携带上IP代理

保存

最后

“相关推荐”对你有帮助么？

2. 分析IP和端口号这两个数据, 请求那个网站可以得到?