我的工作内容就是处理poi的一个属性-地址,其中包含很多有价值的信息,包括行政区、道路、门牌、poi等,但这部分信息的提取需要一定的专业技能,所以公司之前这部分信息的处理基本是空白,当然这也是我的价值所在,虽然面小点儿,哈哈!
先看下实例效果:
地址数据:双峪路5号综合楼奥新天地商贸中心9楼(近双峪环岛)
分级数据:双峪路/R1 5号/H1 综合楼/P1 奥新天地商贸中心/P2 9楼/O1 近双峪环岛/L1
====山东省青岛市城阳区城阳村社区致远民生小区1号楼
===>山东省/S1 青岛市/C1 城阳区/D1 城阳村社区/P1 致远民生小区/P3 1号楼/B1
注:词性R等含义见附录一
产品评测结果
评测说明
数据说明目前地址分级数据中总量有3578636条(取自完全正确POI的地址)
【注】此处的数值只取了有效、运营未处理过的数据,实际数据库记录比这多;
服务对此做地址分级处理,对处理结果给出四中准确度的标识,从高到低依次是1、2、3、4,所以对此做了分层抽样,以客观评估数据的准确性;结果见如下表:
准确度为4的数据可能存在偏差,因为样本量太小造成的,但是从总体占比来看无太大影响;
可用性说明
按照目前的结果看地址分级服务完全可用,并且可用性比较高;
至于应用场景大家可以发挥想象力,我们主要是在垃圾地址过滤,地址规范化等方