python更新库地址_python +ip2region IP库地址文件实现秒级查询1万不同ip归属地址

一、服务器环境介绍:

服务器硬件:4核4g内存

服务器系统:centos6.9 x86_64位最小化安装

二、环境安装

以下都是github.com官网上的说明,我这边复制在自己的博文里了

99.9%准确率,定时更新:

数据聚合了一些知名ip到地名查询提供商的数据,这些是他们官方的的准确率,经测试着实比纯真啥的准确多了。

每次聚合一下数据需要1-2天,会不定时更新。

标准化的数据格式:

每条ip数据段都固定了格式:城市Id|国家|区域|省份|城市|ISP

只有中国的数据精确到了城市,其他国家只能定位到国家,后前的选项全部是0,已经包含了全部你能查到的大大小小的国家。 (请忽略前面的城市Id,个人项目需求)

体积小:

生成的数据库文件ip2region.db只有1.5M(1.2版本前是3.5M)

多查询客户端的支持,0.0x毫秒级别的查询

已经集成的客户端有:java, C#, php, c, python,nodejs,php扩展(支持linux, php5, php7版本已支持),golang。

提供了两种查询算法,响应时间如下:

客户端/binary算法/b-tree算法/Memory算法:

c#/0.x毫秒/0.x毫秒/0.x毫秒

java/0.x毫秒/0.x毫秒/0.1x毫秒 (使用RandomAccessFile)

php/0.x毫秒/0.1x毫秒/0.1x毫秒

c/0.0x毫秒/0.0x毫秒/0.00x毫秒(b-tree算法基本稳定在0.02x毫秒级别)

python/0.x毫秒/0.1x毫秒/未知

任何客户端b-tree都比binary算法快,当然Memory算法固然是最快的!

maven仓库地址:

org.lionsoul

ip2region

1.4

nuget安装命令

Install-Package IP2Region

5. 测试程序:

c#:

cd IP2Region_ConsoleTest

dotnet run

example result:

请输入IP地址:

36.149.160.55

java:

cd binding/java

ant all

java -jar ip2region-{version}.jar ./data/ip2region.db

php:

php binding/php/testSearcher.php ./data/ip2region.db

c:

cd binding/c/

gcc -g -O2 testSearcher.c ip2region.c

./a.out ../../data/ip2region.db

python:

python binding/python/testSearcher.py ./data/ip2region.db

均会看到如下界面:

initializing B-tree ...

+----------------------------------+

| ip2region test script |

| Author: chenxin619315@gmail.com |

| Type 'quit' to exit program |

+----------------------------------+

p2region>> 101.105.35.57

2163|中国|华南|广东省|深圳市|鹏博士 in 0.02295 millseconds

输入ip地址开始测试,第一次会稍微有点慢,在运行命令后面接入binary,memory来尝试其他算法,建议使用b-tree算法,速度和并发需求的可以使用memory算法。

具体集成请参考不同客户端的测试源码。

6.如何生成ip2region.db文件

从ip2region 1.2.2版本开始里面提交了一个dbMaker-{version}.jar的可以执行jar文件,用它来完成这个工作:

1, 确保你安装好了java环境(不玩Java的童鞋就自己谷歌找找拉,临时用一用,几分钟的事情)

2, cd到ip2region的根目录,然后运行如下命令:

java -jar dbMaker-{version}.jar -src 文本数据文件 -region 地域csv文件 [-dst 生成的ip2region.db文件的目录]

#文本数据文件:db文件的原始文本数据文件路径,自带的ip2region.db文件就是/data/ip.merge.txt生成而来的,你可以换成自己的或者更改/data/ip.merge.txt重新生成

#地域csv文件:该文件目的是方便配置ip2region进行数据关系的存储,得到的数据包含一个city_id,这个直接使用/data/origin/global_region.csv文件即可

#ip2region.db文件的目录:是可选参数,没有指定的话会在当前目录生成一份./data/ip2region.db文件

3, 获取生成的ip2region.db文件覆盖原来的ip2region.db文件即可

4, 默认的ip2region.db文件生成命令:

cd ip2region项目根目录

java -jar dbMaker-1.2.2.jar -src ./data/ip.merge.txt -region ./data/global_region.csv

#会看到一大片的输出

三、演示

以下是我采用的php和Python语言进行的实际测试演示:

php演示测试:

[root@git-server ~]# cd /root/ip2region-master

[root@git-server ip2region-master]# ls

binding CHANGES.md data dbMaker-1.2.2.jar LICENSE.md README.md

[root@git-server ip2region-master]# cd binding/

[root@git-server binding]# ls

c c# c_mmap golang java nodejs php php_extension python python3

[root@git-server binding]# cd php

[root@git-server php]# ls

Ip2Region.class.php testSeacher.php

[root@git-server php]# php testSeacher.php /opt/ip2region-master/data/ip2region.db

initializing B-tree ...

+----------------------------------+

| ip2region test script |

| Author: chenxin619315@gmail.com |

| Type 'quit' to exit program |

+----------------------------------+

ip2region>> 211.144.7.32

0|中国|0|北京|北京|联通 in 2.38013 millseconds

ip2region>> 124.207.48.234

0|中国|0|北京|北京|鹏博士 in 0.12134 millseconds

ip2region>>

Python演示:

[root@git-server python3]# python3 testSearcher.py /opt/ip2region-master/data/ip2region.db

initializing b-tree...

+----------------------------------+

| ip2region test program |

| Author: chenxin619315@gmail.com. |

| Type 'quit' or 'exit' to exit program |

+----------------------------------+

ip2region>> 66.249.82.86

0|台湾|0|台湾|0|0 in 1.554199 millseconds

ip2region>> 101.108.251.187

0|泰国|0|曼谷|曼谷|TOT in 0.149414 millseconds

ip2region>>

四、实际应用:

采用python脚本,来查询一个存有1017万个不同IP的文本文件中的ip归属地

以下结合原作者的testSearcher.py Python脚本,来获取这存有1017万个不同IP的归属地址。此Python脚本简单修改如下:

[root@git-server python3]# cat /root/ip2region-master/binding/python3/searcher.py

#-*- coding:utf-8 -*-

"""

" ip2region python seacher client module

"

" Autho: koma

" Date : 2015-11-06

"""

import struct, sys, os, time

from ip2Region import Ip2Region

def testSearch():

"""

" ip2region test function

"""

llen = len(sys.argv)

if llen < 3:

print ("Usage: python testSearcher.py [ip2region db file] [alrogrithm]")

print ("Algorithm: binary or b-tree")

return 0

dbFile = sys.argv[1]

method = 1

algorithm = "b-tree"

search_file = sys.argv[2]

if (not os.path.isfile(dbFile)) or (not os.path.exists(dbFile)):

print ("[Error]: Specified db file is not exists.")

return 0

if (not os.path.isfile(search_file)) or (not os.path.exists(search_file)):

print("查询文件不存在")

return 0

if llen > 3:

algorithm = sys.argv[3]

if algorithm == "binary":

method = 2

elif algorithm == "memory":

method = 3

searcher = Ip2Region(dbFile);

with open(search_file,"rt") as f:

for line in f:

line = line.strip()

#print(line)

if line == "":

print("[Error]: Invalid ip address.")

continue

if line == "quit" or line == "exit":

print("[Info]: Thanks for your use, Bye.")

break

if not searcher.isip(line):

print("[Error]: Invalid ip address.")

continue

#sTime = time.time() * 1000

if method == 1:

data = searcher.btreeSearch(line)

elif method == 2:

data = searcher.binarySearch(line)

else:

data = searcher.memorySearch(line)

#eTime = time.time() * 1000

if isinstance(data, dict):

#print("%s in %f millseconds" % (data["city_id"], data["region"].decode('utf-8'), eTime - sTime))

#print( "%s" % (data["region"].decode('utf-8')))

print("%s|%s" % (line, data["region"].decode('utf-8')))

else:

print("[Error]: ", data)

searcher.close()

if __name__ == "__main__":

testSearch()

测试如下:

[root@git-server python3]# cd /root/ip2region-master

[root@git-server ip2region-master]# time python3 ./binding/python3/searcher.py ./data/ip2region.db /root/unip_guishu >/opt/ipdizhi.txt

real 15m54.394s

user 14m47.138s

sys 0m56.876s

[root@git-server ip2region-master]# tail -10 /opt/ipdizhi.txt

99.97.22.46|美国|0|0|0|美国电话电报

99.97.26.40|美国|0|0|0|美国电话电报

99.97.29.64|美国|0|0|0|美国电话电报

99.97.30.121|美国|0|0|0|美国电话电报

99.98.238.52|美国|0|南卡罗来纳|0|美国电话电报

99.98.254.160|美国|0|加利福尼亚|0|美国电话电报

99.99.218.167|美国|0|德克萨斯|休斯顿|美国电话电报

99.99.232.239|美国|0|德克萨斯|0|美国电话电报

99.99.37.198|美国|0|加利福尼亚|0|美国电话电报

99.99.55.172|美国|0|俄亥俄|0|美国电话电报

总结:当然这个查询的时间和服务器的硬件有很大的关系,后来我在一台CPU为16核心的上测试,查询结果可以达到秒级10万不同ip的归属地查询结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值