一、高精准IP地址定位
IP地址定位技术,是通过设备的IP地址来确定其地理位置。近年来,IP地址定位技术受到越来越多的关注,随着互联网日新月异的发展,市场中的IP地址定位产品存在数据陈旧、定位颗粒度粗糙(仅能达到城市级别)等问题。即使近年来市场中出现了相比城市级别精度有所提升的IP地址定位产品,但仍无法充分满足市场中用户的需求。目前在互联网行业基于位置的服务已经成为趋势,基于地理位置的网络应用层出不穷,IP地址定位已广泛应用于网络安全、在线广告投放、在线安全支付、大数据分析、反欺诈风控、大数据征信等领域。高精准IP地址定位技术在互联网领域中越来越重要。许多研究机构和学者已围绕如何提升IP地址定位技术的定位精度、应用场景等不同问题进行了系统的研究。
1、基于数据挖掘的方式
● 基于DNS. Davis等人提出了一种基于DNS的方法。这种方法在资源记录(Resource Record)中增加位置字段。然而,这种方式实施起来仍有一定难度。这是因为管理员对于修改或者更新资源记录缺乏动力。此外,研究人员表明DNS的错误命名是具有普遍性的,这种错误有可能将互联网的拓扑映射毁掉。
● 基于Whois. Moore等人指出,地理位置定位也可以通过挖掘Whois数据库获得。然而,正如作者自己指出的那样,大型的机构可以把它们的机器分散在不同地点,但是却把这些机器的地理位置注册在公司的总部位置。举一个例子,许多现有使用此方法的IP地址定位数据库都把Google分布在世界各地的服务器错误的定位到了Mountain View,加州,美国。
● 基于主机. 路由器的主机名有时可以暗示出机器的地理信息。Padmanabhan和 Subramanian的GeoTrack首先找到离被探测目标最近的路由器,然后从这个路由器的主机名上来判断出该接入路由器的位置。最终,GeoTrack认为路由器的位置信息即是被探测目标的位置信息。然而,这种方法受到多种因素的影响。第一,并不是所有的机器名称中都包含地理位置信息。其次,管理员可以非常有创意地来命名他们的机器,因此,从技术上来说,解析全部命名格式是十分困难的。再次,由于最后一跳路由器可能和目标主机相差很远,因此用最后一跳路由器的位置来替代目标主机的位置可能带来很大的错误。
● 基于Web. Guo等人的Structon,从Web网页中挖掘地理位置信息。尤其是Structon建立了一个地理定位表,并在一个非常大的数据集的每个网页页面上使用正则表达式提取地理位置信息。由于Structon不把他们发掘的基准点与延迟测量向结合,它只实现了较粗颗粒度的定位精度,如城市级别。他们从网页上提取所有与地理位置有关的信息,而不仅仅是邮政地址信息,而且对于一个网站,他们考虑这个网站域名下的所有网页所提供的地理位置信息。事实上,这种办法很容易出错。此外,把一个/24的IP段都考虑为同一个城市忽略了在这一个网段中IP地址的更细颗粒度的特点。由于Hosting即数据中心、网页地址不正确、traceroute经过的路由未知等因素,会有很大一部分IP地址无法定位或者定位错误,该方法要达到一个较高的精准度是很困难的。
● 其他来源. Padmanabhan和Subramanian的GeoCluster使用在BGP路由表中IP地址的前缀把IP地址首先聚成集群。此外,通过一些私有的资源,GeoCluster找到集群中部分IP地址的地理位置信息。这些私有资源有很多种,其中一个例子是用户在使用Hotmail服务时,登记自己的地理位置信息。最终,根据这些部分IP地址的地理位置信息,GeoCluster推导出整个群集的所有IP地址的地理位置信息。该方法的正确性高度取决于用户的输入。并且这些私有的位置信息一般情况下是不公开的。
2、基于延迟测量
● GeoPing. Padmanabhan和Subramanian设计了GeoPing。它假设,如果两台机器的延迟向量越是类似的话,那么他们之间越有可能靠的近一些。GeoPing需要使用一组可以发送探测包的探测点。很明显,这种办法取决于可以发送探测包的探测点的数量,而通常这个数量是很少的。
● CBG. 之前的研究工作的输出结果多是一些单一的离散的地理位置。Gueye等人提出了基于约束的地理定位方法(Constraint based Geolocation, CBG)。这种方法使用三角测量的方法,提供了一片连续的地理空间范围。特别是,CBG测量从所有基准点到被探测目标点的延迟。然后,它把延迟转化成从基准点到被探测目标点之间的地理距离。最后,它使用三角测量的方法得到一片连续的地理范围。
值得一提的是,CBG使用最优值(bestline)的限制来弥补互联网中路由的绕路和膨胀问题。然而,由于很难预测从一个探测点到目标节点路由是否绕路,通常情况下,只有在被探测节点离探测点很近时,CBG才行之有效。虽然CBG可以很有效地限制目的地区,但由于它测量的不准确性,因此,从本质上来说,要想实现非常精细的地理位置定位是十分困难的。
● TBG. 根据靠近被探测目标的路由器更容易被精确地地理定位这一事实, Katz-Bassett等人提出了基于拓扑结构的地理定位系统(Topology based Geolocation, TBG)。这种方法地理定位目标和到目标的路径中的路由器。TBG的关键贡献在于,它证实了网络的拓扑结构是可以被用来实现更高的地理定位精度。尤其是TBG首先定位到达被探测目标IP路径上路由器的地理位置,然后用这些路由器作为基准点来进一步得到探测目标IP的地理位置。除了使用网络的拓扑信息,一个TBG的变种也使用了一些被动的基准点。当然,这些基准点的位置都是已知的。然而,这样的做法的效果是十分有限的,这是因为这种方法受到基准点个数的限制。
● Octant. Wong等人提出了Octant,它也首先定位了到达被探测节点路径上的路由器的地理位置,然后以这些路由器作为基准点来进一步得到探测节点的地理位置。此外,Octant还考虑了一些正约束信息,如从被探测目标到基准点的最大距离,和一些负约束信息,如从被探测目标到基准点的最小距离。除了延迟的制约,Octant还在其系统中使用了一些其他的正约束和负约束限制。例如,从地理和人口统计数据中获得的负约束(海洋和无法居住的地区)。为了达到更高的精准度,Octant(与TBG方法一样)也首先定位了到达被探测节点路径上的路由器的地理位置,然后用这些路由器作为基准点来进一步得到探测节点的地理位置。
IP地址定位这个领域,已经有了数十年的研究工作。尽管近年来取得了显著改善,但在商业领域中的IP地址定位产品的定位精度及信息完整度仍无法满足市场需求。之前最好的研究结果是Octant系统。该系统的中值误差距离是35公里。虽然这已经是一个很好的结果,但是正如我们看到的,Octant系统仍不足以满足市场的要求。一个高度精确的、无需硬件支持的IP地址定位系统已经变得对互联网越来越重要。
为了满足市场需求,埃文科技的创始人王永提出了无需硬件支持的、街道级别的IP地理位置定位系统——《Towards Street-Level Client Independent IP Geolocation》(2011年在国际顶级互联网会议NSDI上发表,王永是第一位以第一作者身份在NSDI上发表论文的中国大陆学者)。该系统首次提出利用数据挖掘和网络测量相结合的方式,对IP地址进行定位;同时提出了一个三层的IP地址定位系统,并通过实验说明该系统的定位精准度,比定位效果最好的“Octant”提高了50倍。
二、高精准IP地址定位互联网的影响
虽然精确到城市级别或者区县级别的IP地址定位产品能够在某些领域满足用户需求。但一个更高精确度、更加可靠的IP地址定位产品已被确定为是互联网产业发展的重要需求。
例如,互联网在线广告行业已经广泛地使用IP地址定位服务,高精准IP地址定位服务能更大程度的提升有效性。根据研究分析,基于位置的营销比无位置的营销转化率能够提升30~300%,并提升30%~50%的溢价。同样,高精准IP地址定位在网络安全、在线广告投放、在线安全支付、大数据分析、反欺诈风控、大数据征信等领域能提升产品性能和增加收益,为互联网行业发展做出贡献。它不仅能改善现有的应用程序的性能,同时将为基于位置服务提供新的支撑,也使以固定网络接入互联网的用户享受更精准的位置服务成为可能。
埃文科技–全球高精准IP地址定位技术领航者
作为专业从事位置服务的大数据技术科研互联网公司,自2012年成立至今,埃文科技持续推进IP地址定位领域的技术水准。公司专注于网络设备与地理空间位置映射系统的产品研发,拥有12项软件著作权及8项发明专利。
“全球IP地址定位的领航者,为用户提供更加精准的IP地址定位服务”