我有一套大约200000个IP地址和10000个子网的形式(1.1.1.1/24)。对于每个IP地址,我需要检查它是否属于这些子网中的一个,但由于它是一个如此大的数据集,我有较少的计算能力,我希望这是一个有效的实现。在from netaddr import IPNetwork, IPAddress
if IPAddress("192.168.0.1") in IPNetwork("192.168.0.0/24"):
print "Yay!"
但由于我必须循环超过200000个IP地址,并且每个地址循环超过10000个子网,我不确定这是否有效。
我的第一个疑问是,在IPNetwork()中检查“IPAddress()”只是一个线性扫描,还是在某种程度上进行了优化?在
我想出的另一个解决方案是列出IP子网中包含的所有IP(总共约有13000000个IP没有重复),然后对其进行排序。如果我这样做的话,那么在我的循环中,我只需要对每个IP进行二进制搜索,搜索一组更大的IP地址。在
^{pr2}$
然后我可以按照以下方式执行二进制搜索:for ip in myIPList: # myIPList is the list of 200,000 IPs
if bin_search(ip,ip_list):
print('The ip is present')
这种方法比另一种方法更有效吗?或者有没有其他更有效的方法来完成这项任务?在