谈如何正确理解 IP 数据的覆盖率,兼谈正确率~

近年来,出海一直非常热门,而且很多国内公司也是心怀全球,各国运营,所以来找我们咨询海外数据情况的客户很多,但是往往大家并不关心正确率,或者无法核实正确率,更直白的说干那个工作多累多麻烦,所以喜欢走捷径,干什么呢?怎么干呢?看覆盖率。。。

我们说的覆盖率一般是指地理位置标注在省级和城市级的 IP 数据,占整个国家 IP 数量的比例。


问题在于这个覆盖率要怎么看才合适呢?

我们总结下来,覆盖率分成两个具体指标:

第一个指标,IP 级别的覆盖率(以下简称 IP 覆盖率,我们也称之为纸面上的覆盖率):就是你从 IP 库里可以直观统计出来的百分比,这个数据受很多可能性影响,比如:

1、这个国家实际投入的 IP 情况,因为你没有投入实际使用,从理论上讲,不能将其归于任何一个省市,我们的方式是只归于国家级别,那么自然覆盖率会降低。我们的很多同行不想也不会分辨这种情况,直接基于 IPWHOIS 信息的信息解析到省市,直接放进去,而这么干,既没有价值,还会导致未来可能出各种问题。

2、有鉴于运营商或者网络运营方的实际情况,在 IP 角度能否做到更详细的数据,比如英国电信的网络,据我们目前的数据分析,恐怕即使能做,也是很难做,所以我们目前先跳过了,但是从 IP 拥有量上看,他是英国第一大电信运营商,他整体都不标注的话,会极大影响覆盖率,但是我们的看法是,不能因为有影响就乱标注。对吧?

3、鉴于我们的数据源以及标注能力(主要是前者),导致不能理解和识别的部分,我们在中国和一些国家地区有足够的数据源来帮助我们认识、理解和识别网络情况,自然能做的部分就非常高,但有些国家,我们的数据源不够或者非常少,会导致我们不敢下手,这种情况我们会努力寻找更多的数据源,帮助我们认识当地网络。

以上三点是我们认为影响 IP 级别的覆盖率的最主要三点,前两点是客观情况,我们只能解释,不会因为你想要更高的覆盖率而迁就,第三点是我们可以努力的部分,但是因为我们是个小(主要是穷)公司,付不起代价,所以还需要继续努力,也希望各位对数据质量有要求的客户们在产品价格谈判上更慷慨一些。

还有一个比较有意思的例子是,越南,这个问题的也比较多,“你们为啥只能做到省,而没有做到市呢?”我一般的格式化回复是“越南人口不到一亿人,却有 5 个直辖市,58 个省,平均下来一个省级单位也就 600 万人,而且能上网(固定宽带网络)的人口并不多,你觉得你作为当地运营商会怎么做?”

事实上,中国是地理大国、人口大国、网络大国,不要冒然拿着中国的情况跟其他国家对比。

第二个指标,实际覆盖率:就是在实际使用的 IP 数据里,比如在用户访问日志里会出现的 IP 地址的集合,我们所能够做到的覆盖率是多少。

先举个我们最熟悉的例子,中国,如果从 IP 覆盖率上看,我们只做到了接近 90% 不到,但是从我们自身采样看到的数据和客户反馈的数据上看,我们都做到了 99.9% 以上的覆盖率。

这个例子貌似看着差别不大,我们来个大的,印度,我们省级以上的数据在 IP 覆盖率刚刚超过 50%,但实际上在我们自己采样所看到的数据和客户反馈的数据上看,我们实际覆盖率都至少达到了 90% 以上。

这说明了什么?我们认为至少说明了一个事情,就是这个国家拥有的 IP 在实际使用中启用的量并不大,不然你很难解释,为什么 50% 的 IP 覆盖率能做到 90% 的实际覆盖率呢?

所以我们一般建议真正关心 IP 库质量客户们,关心纸面上的 IP 覆盖率,不如关心实际覆盖率和正确率,虽然麻烦,但这才是正确姿势。

之前还有某公司找上门来说,印度数据对他们很重要,如何如何,说他们认真研究过我们的数据,希望我们加强印度的覆盖率,我们委婉的建议他们先看看实际覆盖率,然后就没有下文了。。。

实际覆盖率通过各位客户的数据,比如一天两天或者更长时间的采样或者全量积累,就可以得到,正确率可能更麻烦一些,比如各家公司的应用多少都能拿到一些 GPS 数据吧?可以通过 GPS 情况做一些对比,来做一些判断。没有 GPS ,你也有自己的服务器 IP 吧?你总有人在当地吧?想分析还是能找到一些数据源的。

但是因为国外很多的运营商,网络情况往往做的比中国粗放的多,所以遇到单独依靠 GPS 能判断但是基于 IP 本身却不能确认或者不能标注的情况,会很多,比如我们之前专门谈到的基站,所以这种情况遇到了还是要多交流。而不是武断地说你做的不够好。不然你干嘛不全用 GPS 呢?多好多正确?

当然这里的前提是,国家级别的 IP 地理位置标注是没有错的,不然如何计算覆盖率?在这里推荐一个,https://iplists.firehol.org/,里面有一个 Country Map,各位可以快速切换各个地图对比一下,看看你们能看出什么来。而我们对自己的数据是有自信的。

不得不说,在这个年代了,还有很多同行们,无论对外说的有多高大上,正确率有多高,但私底下还是在利用 IPWHOIS 的信息做数据,所以看着 IP 级别的覆盖率很高,但是正确率却非常差,而且价格还很贵,貌似一分钱一分货。

举个最容易理解的例子,我们通过解析某一同行的数据中,在美国数据部分,按照地理位置拥有数量倒序,可以得到以下这样的数据。

US, Ohio, Columbus => 227267582
US, New York, New York City => 88778063
US, Arizona, Fort Huachuca => 54663312

这表示按照这个数据库的数据,在美国,按拥有量排名的前三大城市是俄亥俄州的哥伦布,纽约州的纽约,亚利桑那州的华楚卡堡。

先抛开纽约这个大城市不提。

第一个俄亥俄州哥伦布的 IP 拥有量高达 2.2 亿,这已经是超过中国拥有的 IP 量的一半了,真神奇。

而根据维基百科,这个城市的人口 2010 年的时候应该不超过 100 万。

合理吗?有合理性吗?

第三名亚利桑那的华楚卡堡,根据维基百科,只是一个美国陆军军事基地,而 IP 拥用量高达 5400 万。

合理吗?有合理性吗?

而如果你熟悉 IPWHOIS 数据集的话,很容易就可以找到第一个城市和第三个城市在哪里出没了。比如:

现在能够理解一些了吧?这两个城市应该只是美国军方注册信息中的机构所在地而已。我就呵呵。这也是为什么我们美国数据在 IP 覆盖率级别上虽然只能做到 45% 左右,但是实际覆盖率依然能做到 90% 以上的原因之一吧。

这还不提那些因为某些国家的城市名重复,而导致某些同行把数据都解析到别的国家去了的例子呢。看到的时候,笑死我了。

而就这样的数据制作方式,这样的数据质量,人家依然敢报价几万美金起,我觉得我们快成良心中的战斗机了。。。

魔鬼都在细节里,你在某个 IP 数据供应商的数据里如果找到以上类似的数据,那么要么它是基于 IPWHOIS 解析的,要么是抄了同行的数据,基本上只有这两种可能。

而且我们认为以这种方式方法做出的数据,其价值几乎为零。

如果这个方法好的话,为啥他们中国的数据都很烂很差到没人愿意买了呢?总有道理在里面。也别觉得他们只是中国数据烂。

这个因为我们本分,导致我们被批评被误解的锅,我们依然不想背。

至于那些因为追求 IP 覆盖率而选择我们同行数据库的公司,祝你们好运。

最后附送一张图:

希望各位真心追求数据质量的同学们明鉴,欢迎交流。。。

-- 2020 年 3 月 17 日,今年嗓子第二次发炎中

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值