使用Redis有序集合搭建自有IP定位解析库（纯真库）

最新推荐文章于 2024-08-16 11:34:02 发布

islenbo

最新推荐文章于 2024-08-16 11:34:02 发布

阅读量2.7k

点赞数 2

分类专栏： CTO 文章标签： IP Redis 地理位置有序集合本地IP

本文链接：https://blog.csdn.net/woai0324/article/details/71699191

版权

CTO 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

网上关于IP地理位置解析的API有很多种，如IP138、百度IP定位API等，接入方便，使用简单，而且免费。缺点就是有访问次数限制。

所以有必要搭建自有的IP定位解析库。纯真库是一个比较有名的IP库，而且会不断更新，文章发布时的最新版本是2017-04-25。

一、数据源准备

下载纯真库并安装到本地，找到安装目录中提取出“qqwry.dat”

下载IPLook工具，将“qqwry.dat”文件转换成txt文本文件

利用数据库工具Navicat将上一步的txt文本文件导入到MySQL，表结构如下

1

2

3

4

5

6

 
      CREATE  
      TABLE  
      `ip` ( 
     
 
         
      `StartIP`  
      bigint 
      (20)  
      NOT  
      NULL  
      COMMENT  
      'IP起始值' 
      , 
     
 
         
      `EndIP`  
      bigint 
      (20)  
      NOT  
      NULL  
      COMMENT  
      'IP结束值' 
      , 
     
 
         
      `Country`  
      varchar 
      (60)  
      NOT  
      NULL  
      DEFAULT  
      ''  
      COMMENT  
      '国家及详细地址' 
      , 
     
 
         
      ` 
      Local 
      `  
      varchar 
      (300)  
      NOT  
      NULL  
      DEFAULT  
      '' 
     
 
      ) ENGINE=InnoDB; 
     

二、原理

我们都知道，IP（IPv4）共有2^32=4294967296个（除去私有网段、网络ID、广播ID、保留网段、本地环回127.0.0.0网段、组播224.0.0.0网段、实际可用就是25.68亿）。这些IP，每个相邻区间，地理位置是相同的，如218.107.30.50-218.107.30.60，都是属于广东省广州市。纯真库正是利用这个特性，将相邻区间且地理位置相同的IP放在一起，将上亿个IP浓缩成40多万的区间。查找某个IP时，只需要找到IP所在区间，就能获取到相应的位置。

IPv4是由32位二进制数表示，一般的书写法为4个用小数点分开的十进制数。由于需要对区间进行比较，必需将IP转成不带“.”的长整型。

三、查询

查询的方法有多种

1、网上也有人直接读取解析dat文件，Java、PHP等语言都有相关的算法。dat文件比较大，每个IP进来都需要计算偏移量得出所在区间，性能并不高，非常耗CPU（3个线程各自循环1000次CPU上升到100%）。显然个方案不能放到生产环境去。

2、在数据库中计算区间，SQL为：

SELECT * FROM ip WHERE INET_ATON('218.107.30.50') BETWEEN StartIP AND EndIP LIMIT 1;

由于涉及到区间计算，即使加上了索引，性能也不高。

3、利用方法2，将42亿个IP全解析出来，放到新的表，查找时用“=”，可直接利用索引。这个想法很美好，但是却无法执行，42亿的表，得花多长的时间才将所有IP写进表里，后期也不好维护。

四、高效查询的解决方案

上面的3种方案，显然比较靠普的还是第2种，既然使用MySQL性能不高，那就换成Reids，直接从内存读取。Redis能支持有序集合并支持区间查找，即zRange。

将每个IP区间的结束IP（EndIP）当作score值，value中包含区间的起始IP（StartIP）和位置信息（Country）

经过试验，将MySQL中40多W的IP区间写到Redis中，只需不到10秒。

 
      $maxIp  
      = -1; 
     
      while  
      (true) { 
     
      // 分批每次取出50000条记录 
     
      $sql  
      =  
      'select * from ip where StartIP > :ip limit 50000' 
      ; 
     
      $rows  
      =  
      $dbConnection 
      ->createCommand( 
      $sql 
      , [ 
      ':ip'  
      =>  
      $maxIp 
      ])->queryAll(); 
     
      if  
      ( 
      count 
      ( 
      $rows 
      ) == 0) { 
     
      break 
      ; 
     
      } 
     
      $adds  
      = [ 
      'ip' 
      ]; 
     
      foreach  
      ( 
      $rows  
      as  
      $row 
      ) { 
     
      $adds 
      [] =  
      $row 
      [ 
      'EndIP' 
      ]; 
     
      $adds 
      [] = json_encode( 
      $row 
      , JSON_UNESCAPED_UNICODE); 
     
      $maxIp  
      =  
      $row 
      [ 
      'StartIP' 
      ]; 
     
      } 
     
      // 将5W个记录批量写入$redis->zAdd('ip', 'EndIP1', 'row1', 'EndIP2', 'row2', 'EndIPN', 'rowN'); 
     
      call_user_func_array([ 
      $redis 
      ,  
      'zAdd' 
      ],  
      $adds 
      ); 
     
      }

每个IP区间之间不存在交集，每个查找只要按score查找区间[ip2long(ip), ip2long(ip) + N]，N的值必需足够大，确保结束IP的值大于当前区间的结束IP。这个有点难理解，举个栗子：

有3个区间

Value Score
36 60
61 67
68 68

查找IP=50时，查找的score为[50, 50 + N]，且要满足50 + N >= 60，否则就无法找到[36, 60]这个区间。

代码如下：

 
      $ip  
      =  
      '218.107.30.50' 
      ; 
     
 
      $n  
      = 4294967296; 
      // n的值是总IP数，确保一定会超过结束区间 
     
 
      $long  
      =  
      ip2long 
      ( 
      $ip 
      ); 
     
 
      $rows  
      =  
      $redis 
      ->zRangeByScore( 
      'ip' 
      ,  
      $long 
      ,  
      $long  
      +  
      $n 
      ); 
     
 
      if  
      (! 
      empty 
      ( 
      $rows 
      )) { 
     
 
           
      foreach  
      ( 
      $rows  
      as  
      $row 
      ) { 
     
 
               
      $obj  
      = json_decode( 
      $row 
      , true); 
     
 
               
      if  
      ( 
      $obj 
      [ 
      'StartIP' 
      ] <=  
      $long  
      &&  
      $long  
      <=  
      $obj 
      [ 
      'EndIP' 
      ]) { 
     
 
                   
      return  
      $obj 
      ; 
     
 
               
      } 
     
 
           
      } 
     
 
      } 
     

         
     
 
      return  
      null;