A Geolocation Databases Study(2011年)第四部分:Evalution Model

本文深入探讨了地理定位数据库的评估模型,关注基本测试、真实位置、数据库间的比较、异常情况和数据库变化等方面。研究发现,尽管数据库在某些方面表现出较高的收敛性和一致性,但也存在显著的不匹配和异常,尤其是在国家和城市级别的定位准确性上。例如,一些数据库将IP地址错误地标记为ISP总部的位置,而其他数据库在不同时间点的IP地址信息更新差异也较大。此外,数据库间的差异可能导致数千公里的位置偏差。
摘要由CSDN通过智能技术生成

下载地址:A Geolocation Databases Study | IEEE Journals & Magazine | IEEE Xplore

被引次数:195

Shavitt Y, Zilberman N. A geolocation databases study[J]. IEEE Journal on Selected Areas in Communications, 2011, 29(10): 2044-2056. 

4. Results

A. Basic Tests  基本测试

1) Null Replies NUll回复

我们首先检查为IP地址查询返回的NULL回复数。这个问题有四种。

首先,我们区分Pop的核心和单例的IP地址。由于一些数据库关于最终用户或访问接口的信息可能比关于核心路由器和主扑克机有更好的信息,因此这可能是有意义的。

下一个观察是适用于某个PoP内所有IP地址的NULL回复:数据库是不能覆盖地址范围或物理位置范围,还是NULL回复是单个IP地址缺乏信息?这是考虑有和没有单例。

表2显示了每个数据库中每种情况下返回NULL回复的IP地址的百分比。

表2为Null IP地址信息

NetAcuity和IP2Location是唯一返回所有查询的IP地址位置的数据库。这本身并不意味着返回的地址是正确的,只是表示存在一个条目。另一方面HostIP.Info无法找到大部分的IP地址,但是在PoP级别上,这个百分比下降了一半。这可能意味着HostIP.Info是缺乏关于特定IP地址的信息,而不是IP范围。此外,HostIP.Info确实返回了国家信息,但没有经度和纬度信息。Spotter没有找到大约三分之一的IP地址。Spotter没有找到大约三分之一的IP地址。造成这种故障的原因可能是IP对ping没有响应,或者往返延迟太高,无法为算法提供近似值。只有核心PoP IP地址,没有单例,在这里测试。对于MaxMind,Null回复的百分比指的是没有特定位置信息可用的事件。在大多数情况下,MaxMind确实返回了经度和纬度信息,这代表了IP使用的国家的中心。核心PoP IP地址的DNS NULL回复小于15%,在考虑到单例时接近29%。由于单例有可能代表最终用户而不是路由器接口,因此这是意料之中的。当观察DNS时,分组到PoPs中的效果是显著的:当考虑到单例时,只有2%的PoPs没有基于DNS的位置信息。

2) Agreement within database  数据库内的协议

根据定义,属于同一PoP的IP地址位于同一区域。人们可以利用这些信息来评估地理位置数据库的准确性:如果属于同一PoP的IP地址被分配了不同的地理位置,那么该信息的准确性应该受到质疑。这个语句是基于PoP算法是正确的假设,并且不将来自不同位置的IP地址分配给同一PoP。我们在这里的实验进一步支持了这一假设:在所有评估的PoP中,无一例外,总是有支持PoP附近需求的数据库。

我们为每个数据库分别运行该算法。图4显示了每个数据库中没有单例的收敛范围的CDF,x轴是以公里为单位的收敛范围。收敛范围是覆盖PoPs内至少50%的IP地址位置的半径。IPligence和IP2Location显然比其他数据库的收敛范围要好得多:使用这些数据库的超过90%的PoPs有最小的收敛范围,1公里,这实际上是完全相同的位置。MaxMind、GeoBytes NetAcuity有74%到82%的扑克玩家在一公里内聚合。为主机的。信息显示,略小于57%的诗人在最小范围内收敛,而几乎所有其余的都不能收敛。这主要是由于缺乏关于IP地址的信息,由于Spotter的信息是通过测量获得的,几乎有三分之一的PoPs聚集在一公里以内就是良好表现的标志。此外,超过82%的PoPs在100公里内聚合,接近98%在500公里内聚合,与其他大多数数据库相似或更好。由于测量误差,预计积累是缓慢的。一个有趣的结果是标记为All的曲线,显示了在组合来自所有数据库的信息时的收敛范围。尽管所有数据库的大部分PoPs都位于最小范围内,但所有的PoPs都在这个范围内收敛,这意味着数据库之间存在分歧,尽管随着范围的增长,聚合PoPs的百分比也会增加。这并不一定意味着所有的数据库都同意在同一位置,也不意味着这个位置是正确的,因为回复每个IP的位置的数据库比回复某些NULL的数据库具有更大的影响力。我们在第4-C节中进一步探讨这个问题。

图4. 数据库内的收敛范围

图5图6显示了没有单例的数据库中协议的CDF。X轴表示代表多数投票的PoPs中IP地址的百分比,Y轴表示这次多数投票的概率。对于图5,我们设置的半径为100公里,在图6中使用的半径为500公里,在此范围内需要大多数。大多数数据库有95%或更多的机会在500公里半径内获得至少50%的位置投票,在100公里半径内获得至少90%的机会。

图5. 在距离PoP中心100公里范围内的位置投票百分比

图6. 在距离PoP中心500公里范围内的位置投票百分比

在所有的数据库中,都有没有多数投票的PoPs,这意

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值