地址分级服务总结

 我的工作内容就是处理poi的一个属性-地址,其中包含很多有价值的信息,包括行政区、道路、门牌、poi等,但这部分信息的提取需要一定的专业技能,所以公司之前这部分信息的处理基本是空白,当然这也是我的价值所在,虽然面小点儿,哈哈!
先看下实例效果:
	地址数据:双峪路5号综合楼奥新天地商贸中心9楼(近双峪环岛)
    分级数据:双峪路/R1 5号/H1 综合楼/P1 奥新天地商贸中心/P2 9楼/O1 近双峪环岛/L1
    ====山东省青岛市城阳区城阳村社区致远民生小区1号楼
	===>山东省/S1 青岛市/C1 城阳区/D1 城阳村社区/P1 致远民生小区/P3 1号楼/B1
    注:词性R等含义见附录一
产品评测结果

评测说明
数据说明目前地址分级数据中总量有3578636条(取自完全正确POI的地址)
【注】此处的数值只取了有效、运营未处理过的数据,实际数据库记录比这多;
服务对此做地址分级处理,对处理结果给出四中准确度的标识,从高到低依次是1、2、3、4,所以对此做了分层抽样,以客观评估数据的准确性;结果见如下表:
数据统计表
准确度为4的数据可能存在偏差,因为样本量太小造成的,但是从总体占比来看无太大影响;
可用性说明
按照目前的结果看地址分级服务完全可用,并且可用性比较高;
至于应用场景大家可以发挥想象力,我们主要是在垃圾地址过滤,地址规范化等方面应用。
同类产品gd的准确率不会高于90%,与之相比,我们现在产品准确度高出很多,当然这也跟应用场景有关,gd后续采用大数据挖掘的方式完善了部分处理效果,这也导致gd这一产品只能作为一个处理步骤,无法独立对外提供服务;我们的产品完全可以独立对外提供可靠的地址处理服务。至于gd没有继续改进效果的原因主要是内部逻辑非常复杂,经过多人之手,改造几乎不可能,也没人愿意去踩这个坑,又有别的工具可以完善效果,大家也就没有优化的动力了。
这里面的难点就是字典数据的优化处理,此过程相当乏味与无聊,没有相当的毅力、决心以及相应的处理方法是绝对不可能解决这种长尾效应的问题的,现在想起来我都有点儿反胃。细节的处理难以详细介绍,在此仅把整个处理流程展示一下。
在此先介绍下,基本原理:单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,它的查询时间复杂度为O(n),n为树的高度。
字典特性:
1. 双数组trie树
2. 词性概念,根据需要分类建立数据,并对其赋予相关词性,以便于根据词性对数据进行针对性的处理;组合词性-需要根据数据所处位置对词性进行推测。
3. 动态数据插入
字典模型
字典模型
字典数据初始流程
字典数据初始流程
核心的回归改进流程
回归改进流程
这里面要提一点就是自动回归测试工具的作用非常大,能节省大量人工重复工作量,也保证之前版本的处理效果不会倒退,其中一些利于辨识的展示效果也非常重要,比如以"====>"等比较明显的标识来标示两次差异的处理结果等。
附录一

词性对应表

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值