【概述】
小O地图是一款基于互联网地图进行地图数据挖掘、处理、图表的工具软件。
本文介绍众多功能之一“地址比较”功能。
作者认为这个功能还是很有用的,能够充分体现地理信息处理对于地址的处理
【场景一:地址比对】
物流、快递公司经常有大量地址数据需要处理,但由于用户输入地址不规范,容易导致同一个地点文字表述不一样。例如:
目标地点:中国纺织机械和技术进出口有限公司
输入地址1:北京市朝阳区北京市朝阳区建国路99号中服大厦18层
输入地址2:北京市朝阳区建国路99号
由于输入的原因导致文字表述差异较大,而使用纯文字对比的方法比较,很难判断为同一个地点。
【场景二:地址分词】
科研院所做语义研究,需要将地址文字进行分解,用于分析地址词汇出现的频率,从而推导地址热度、用户输入习惯行为特征,为大数据分析、深度学习提供基础的数据源。
输入地址:北京市朝阳区北京市朝阳区建国路99号中服大厦18层
地址分解:
- 城市:北京市
- 行政区:朝阳区
- 道路:建国路
- 门牌:99号
- 大厦:中服大厦
- 楼层:18层
按上面分解,当有多组地址作为样本,通过分解就能够很容易获得地址每个级别出现的频率,多数用户输入地址分段的习惯等,可以对输入界面UI/UE提供必要的提示或改进依据。
类似上述场景还有很多,作者不在此赘述,下面介绍小O地图功能,希望能够抛砖引玉,启发用户发现地理价值。
为满足上述场景,就可以使用小O地图的【地址比较】功能,利用地理分词技术对地址进行解析,判断地址是否为同一个地址;获得地址分解的结果。
【使用步骤】
【1】新建任务
小O地图功能均以任务的方式执行,如下图,首先新建“地址比较”任务,在任务界面中输入必要参数,保存新建任务。
【2】导入待处理地址(支持两列地址)
在任务菜单里选择导入数据功能,将待处理数据导入任务。待导入的数据通常包括:地址1、地址2、名称、编号等关键字段,地址1和地址2为待比较的字段,名称或编号作为保留字段导入,待处理完导出时关联原始数据。
使用任务导入数据功能
其中,地址1和地址2为比较的地址字段,其他字段为预留字段,用于处理后导出时与原数据进行对应。
【3】执行任务
导入后,登陆小O地图,非登录处理条数有限制。选择任务栏上的【爬虫】图表,启动任务进行地址分析及比较功能。小O地址比较功能支持离线,处理过程无需联网,不受地图KEY的限制。
【4】导出结果
执行完成后,选择任务的导出数据功能,将处理结果导出为CSV格式文件,可在Excel文件中打开查看或做后续处理。
上图为导出界面,设置为默认状态,点击【确定】即可导出所有处理结果,导出格式首选【CSV】。
下图为导出的CSV文件在EXCEL中打开的截图,其中地址1和地址2为比较的地址字段。
比较结果字段有:
1、地址分词1:对地址1进行分词的结果。
2、地址分词2:对地址2进行分词的结果。
3、相似度:两个地址比较相似程度。
相似度表,数值表示两个地址相似的级别,例如:105 - 表示地址 省、市、区、镇、村 都相同。
省 - (101)
市 - (102)
区 - (103)
镇 - (104)
村 - (105)
街路 - (106)
门牌 - (107)
建筑 - (108)
单元 - (110)
楼层 - (109)
房间 - (111)
号码 - (112)
下面给出详细样例:
待比较的地址:
地址1:北京市海淀区北京市海淀区三里河路15号
地址2:北京市海淀区三里河路15号比较结果:
分词1:北京市[AddrCity]海淀区[AddrDist]北京市[AddrCity]海淀区[AddrDist]三里河路[AddrRoad]15号[AddrRoadNum]
分词2:北京市[AddrCity]海淀区[AddrDist]三里河路[AddrRoad]15号[AddrRoadNum]
相似度:107上述两个地址比较结果是 相同至 门牌号。
【本文完】
更多资讯,请访问如下方式
官网:www.GIS9.com
技术QQ群:1054 7087 07