如何批量获取代理ip（免费）

-Danny-?

已于 2022-04-15 23:39:23 修改

阅读量1.3k

点赞数

分类专栏：笔记代理ip python 文章标签： tcp/ip python http

于 2021-08-01 18:43:31 首次发布

本文链接：https://blog.csdn.net/ssghzzcsvcd/article/details/119301545

版权

笔记同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

代理ip

1 篇文章 1 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

获取程序由python编写，pyinstaller/cython编译，作者编写完整下载地址在文章末尾

欢迎大家加入QQ编程交流群：107098233

first

引入两个大家熟知的库json和requests

import json #导入json模块

该模块用来解析标准的js子类文本到标准python字典（dict）

import requests #导入requests模块

该模块用来通过http协议以get，post能方式获取网络数据
笔者的python3.9 x64没有自带该库，如果你像笔者一样可以在命令行输入

pip install request

当然，你也可以调用winhttp.dll或使用urllib

获取总数据页面（使用的api：https://ip.jiangxianli.com/api/proxy_ips）

这个api是笔者在百度这个无良引擎中掏出来的，有全国甚至全球的代理ip，随时可能失效（官网在https://ip.jiangxianli.com/）
使用requests访问这个质量不太好的api获取json数据

requests.get("https://ip.jiangxianli.com/api/proxy_ips")

转为python字典，此处用函数json.loads(str)套上请求代码

注意：不要用json.load()!!!会报错，这个函数是指解析json在json只有一项情况下！！

json_data=json.loads(requests.get("https://ip.jiangxianli.com/api/proxy_ips").get)

获取页面总数

papes=json_data['data']['last_page']

second

循环获取所有代理ip

在这里插入图片描述

此处可以看出数据是数组

直接套用for i in json_data['data']['data']:
由于数据是分页的
所以需要套上for i in range(papes):
由于服务器的管理员可能怕服务器bug掉设置了分页！！
所以我们需要根据页码来获取数据 api：https://ip.jiangxianli.com/api/proxy_ips?page=页码
数据与文章首是相同格式，获取我就省略了
代码：

for i1 in range(json_data['data']['last_page']):
    result=json.loads(requests.get("https://ip.jiangxianli.com/api/proxy_ips?page="+ str(i1)).text)
    for i2 in result['data']['data']:  
        data.append({'ip': i2["ip"],'端口号':i2['port'],'国家': i2['country'],'物理位置':i2['ip_address']})

完整精简代码

json_data=json.loads(requests.get("https://ip.jiangxianli.com/api/proxy_ips").text)
print("总数据页数",json_data['data']['last_page'])
for i1 in range(json_data['data']['last_page']):
    result=json.loads(requests.get("https://ip.jiangxianli.com/api/proxy_ips?page="+ str(i1)).text)
    for i2 in result['data']['data']:  
        data.append({'ip': i2["ip"],'端口号':i2['port'],'国家': i2['country'],'物理位置':i2['ip_address']})
print('共',len(data),"条代理ip")

third

代理测试：
代码：

total=len(data)
print("准备连接测试")
for i3 in data:
    try:
        if i3['端口号']==8080:
            proxymodel="https"
        else:
            proxymodel="http"
        result = requests.get("https://baidu.com", proxies={proxymodel: i3['ip']+':'+i3['端口号']})
        if result.status_code == 200:
            if result.text==requests.get("https://baidu.com").text:
                print("测试IP:", i3['ip']+':'+i3['端口号'],",成功：可用,延迟：",result.elapsed.microseconds,"ms")
            else:
                print("测试IP:", i3['ip']+':'+i3['端口号'],",失败：数据无效")
                data.remove(i3)
        else:
            print("测试IP:", i3['ip']+':'+i3['端口号'],",失败：数据无效")
    except:
        print("测试IP:", i3['ip']+':'+i3['端口号'],",失败：无法连接")
        data.remove(i3)
print('无法使用的数量：',total-len(data))
print('可用数量：',len(data))

解析：

for循环获取数据数组中的每一项
通过requests.get（url，proxies={proxymodel: i3[‘ip’]+’:’+i3[‘端口号’]}）返回的code
以及代理传回和本地网络传回代码校验，得出是否可用

last

最后保存到文件

注意input（），执行到input（）python会等待用户输入并成为input（）返回值
open代码我想大家都会了

while True:
    path=input("请输入保存路径：")
    print("请输入保存模式(1)json模式(2)python代码开发示例(3)python数组模式(复制到变量赋值处)")
    model=input("请输入序号:")
    file = open(path,"w")
    if model=='1':
        text=json.dumps({'proxy': data})
    elif model=='2':
        text='import json\nimport request\nproxy='+str(data)+'\nprint(proxy)\nprint(len(proxy))'
    elif model=='3':
        text=str(data)
    else:
        text=''
        break
    file = open(path,"w+")
    file.write(text)
    print("程序运行结束。made by danny QQ3414034955")
    exit()