一码多址与同义词解决方案

随着地址库中的数据不断的丰富,地址库中一码多址和同义词的数据也会越来越多,一码多址和同义词在统一地址管理平台中的概念并不相同。
一码多址指的是多个地址编码相同,例如通过民政地址找到编码,再通过编码找到房产地址描述。

本文介绍一种标准地址库动态更新的方案。通过每天将业务地址中没有与标准地址成功关联匹配的地址收集起来,经过ETL流程自动化的规范化工作之后,每天把疑似标准地址的地址数据推送给人工确认就行。这种更新方式更有正对行,减少大量人工作业,并且数据更新频率非常高,能做到T+1更新。

在这里插入图片描述

第一步:业务地址汇总:大量非标准的地址数据去重。
第二步:业务地址关联标准地址:依赖addresstool工具,利用api接口或者大数据工具,将业务地址与标准地址进行一对一匹配(具体方法可参考我写的其他文章)。
第三步:未关联(非完全关联)地址汇总。业务地址关联标准地址会有3中情况,完全关联、非完全关联和未关联,后2中情况的地址是需要进一步治理的。
第四步:脏数据过滤。这个可以将各种不符合要求的地址进行过滤,如无地址主体的地址、目前区域外的地址、脏字符串、乱码等。
第五步:地址规范化。这一步主要进行地址分词、地址行政区划补全等操作,尽可能简化后续人工工作量。
第六步:人工审核验证。到这里基本上都是一些书写质量较高的业务地址,人工只需审核地址是否真是存在、地址切词是否正确并进行适当调整修补即可。

地址自动化更新的目的就是为了减少传统方式建标准地址库的工作量,并且提高地址更新的及时性。

为此,我专门写了一个addresstool工具,集成了地址分词、地理要素识别、正向地理编码、标准地址关联等方法,gitee有各场景的算法demo,欢迎共同讨论。
如果想了解更多addresstool用法,欢迎关注我的博客
java资源下载

https://download.csdn.net/download/u011024436/89035851

源码学习
https://gitee.com/addresstool/address

  • 9
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

addresstool

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值