代理IP的挖掘与分析,通过真实可用的IP提取分析代理的指纹信息,可以用来作为代理IP分析的指纹特征。在工作中可以用来进行代理IP的查找与分析。
代理指纹提取
既然网上这么多多的代理IP,这些代理IP和端口绝大多数是批量扫描得到的,因此,如果掌握了这些代理的指纹信息,就可以批量扫描代理的IP和端口了。选择其中部分代理的IP进行分析,通过nmap与抓包形式分析其指纹数据。这里随意选择一个代理IP地址:58.252.6.165,其代理端口为9000。对其进行数据分析,通过nmap探测到其9000端口对应的服务为MikroTik http proxy,这些数据应该可以作为代理的指纹。
基于Nmap扫描而来的代理指纹
基于HTTP响应提取的代理指纹
指纹提取思路:
本人的思路是直接提取HTTP响应头部信息,得到的是这样的:
看了一下,数据量有点大,一般情况下web服务类型是通过HTTP响应头部的server字段来返回的,因此代码优化了一下,直接提取出server字段,代码如下:
#coding:utf-8
from requests import *
headers = {
""User-Agent"": ""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0"",
""Accept"": ""*/*"",
""Accept-Language"": ""en-US,en;q=0.5"",
""Accept-Encoding"": ""gzip