快排之万能代理IP接口设计

百度(Seo)快排之万能代理IP接口设计

我们在《python脚本百度(SEO)快排–模拟点击最新核心源码》中提到对快排影响的重要因素之一就是IP,如何使用多IP执行快排脚本有两种方法:

** 1、使用动态拨号VPS **
** 2、代理IP池**

今天我们主要来说下如何设计一个万能的代理IP池接口?

我们随便找几家做代理IP池的厂家,看看他们都是什么样的接口?

1、芝麻HTTP

接口文档:https://zhimahttp.com/getapi/

2、品易HTTP

接口文档:http://pc.py.cn/api/

3、华益云
接口文档:http://www.9vps.com/show.asp?id=8

4、站大爷
接口文档:https://www.zdaye.com/doc/api/ShortProxy/

5、proxyPool

接口文档:https://github.com/jhao104/proxy_pool/

上述5个平台代理ip池都有各自的对接接口,而且他们的接口都不一样,有的是通过GET方式获取的,有的是通过POST方式获取的,获取的结果也不相同,有的可以直接返回代理ip如:114.55.53.151:3128 这样的格式是我们需要,有的接口返回的是json格式如:

{
  "anonymous": "", 
  "check_count": 2, 
  "fail_count": 0, 
  "https": false, 
  "last_status": true, 
  "last_time": "2021-12-10 12:15:59", 
  "proxy": "8.218.161.168:1080", 
  "region": "", 
  "source": "freeProxy05"
}

如上这种json格式就需要从中提取代理ip与端口

返回结果格式上看可以把他们分为两类:

一类是直接返回代理ip
另一类直接返回json格式数据

对于第一种直接返回代理ip的我们不需要处理直接哪来使用就可以

对于返回json格式数据我们需要从中提取代理ip与端口,但不同厂家返回的json数据格式是不统一的,比如:

{
          "code":0,
          "success":true,
          "msg":"0",
          "data":[
              {
                  "ip":"49.68.68.197",
                  "port":33220,
                  "expire_time":"2019-05-24 08:58:31",
                  "city":"徐州市",
                  "isp":"电信"
              },
              {
                  "ip":"58.218.201.108", //隧道ip (代理ip)
                  "port":2690,           // 代理端口
                  "expire_time":"2019-05-24 08:55:31",
                  "city":"苏州市",
                  "isp":"电信",
                  "outip":"219.136.47.161",  // 隧道ip的出口ip
              }
          ]
       }

那么如何解决做一个配置,能兼容所有的代理ip池呢?

在python中可以使用jsonpath库,jsonpath提取json格式的数据非常方便

1. jsonpath介绍

用来解析多层嵌套的json数据;JsonPath 是一种信息抽取类库,是从JSON文档中抽取指定信息的工具,提供多种语言实现版本,包括:Javascript, Python, PHP 和 Java。

使用方法如:

import jsonpath
res=jsonpath.jsonpath(dic_name,'$..key_name')
#嵌套n层也能取到所有key_name信息,其中:“$”表示最外层的{},“..”表示模糊匹配,当传入不存在的key_name时,程序会返回false

2. JsonPath 对于 JSON 来说,相当于 XPath 对于 XML

安装方法:

pip install jsonpath

官方文档:http://goessner.net/articles/JsonPath

3. JsonPath与XPath语法对比:

Json结构清晰,可读性高,复杂度低,非常容易匹配,下表中对应了XPath的用法。

/$跟节点
.@现行节点
/. or []取子节点
n/a就是不管位置,选择所有符合条件的条件
**匹配所有元素节点
[][]迭代器标示(可以在里面做简单的迭代操作,如数组下标,根据内容选值等)
&#124[,]支持迭代器中做多选
[]?()支持过滤操作
n/a()支持表达式计算
()n/a分组,JsonPath不支持

4. 使用实例


    d={
            "error_code": 0,
            "stu_info": [
                    {
                            "id": 2059,
                            "name": "小白",
                            "sex": "男",
                            "age": 28,
                            "addr": "河南省济源市北海大道32号",
                            "grade": "天蝎座",
                            "phone": "18378309272",
                            "gold": 10896,
                            "info":{
                                "card":434345432,
                                "bank_name":'中国银行'
                            }
    
                    },
                    {
                            "id": 2067,
                            "name": "小黑",
                            "sex": "男",
                            "age": 28,
                            "addr": "河南省济源市北海大道32号",
                            "grade": "天蝎座",
                            "phone": "12345678915",
                            "gold": 100
                    }
            ]
    }

    res= d["stu_info"][1]['name'] #取某个学生姓名的原始方法:通过查找字典中的key以及list方法中的下标索引
    print(res) #输出结果是:小黑

    import jsonpath
    res1=jsonpath.jsonpath(d,'$..name') #嵌套n层也能取到所有学生姓名信息,$表示最外层的{},..表示模糊匹配
    print(res1) #输出结果是list:['小白', '小黑']

    res2= jsonpath.jsonpath(d,'$..bank_name')
    print(res2) #输出结果是list:['中国银行']

    res3=jsonpath.jsonpath(d,'$..name123') #当传入不存在的key(name)时,返回False
    print(res3) #输出结果是:False

5、提取proxypool接口中的代理

proxypool接口:http://127.0.0.1:5010/get/

通过GET方式请求,返回数据如下:

{
  "anonymous": "", 
  "check_count": 1, 
  "fail_count": 0, 
  "https": false, 
  "last_status": true, 
  "last_time": "2021-12-10 14:19:22", 
  "proxy": "112.14.47.6:52024", 
  "region": "", 
  "source": "freeProxy05/freeProxy04"
}

从这样的接口中获取代理ip的方式如下:

import requests
import jsonpath
import json

response = requests.get('http://127.0.0.1:5010/get/')
data = json.loads(response.text)
ips = jsonpath.jsonpath(data, '$..proxy') #返回的是list
if len(ips) >0 :
	print(ips[0])

未完待续…

关注“何三笔记”公众号回复 “快排工具” 获取下载

如果想获取源代码回复“快排源码”

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shengguque

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值