先看视频:
一、需求背景
外业采集或收集到的兴趣点点位名称,一般是点位名称的全称,有些公司、单位或机构的名称字符较长,甚至超过了20个汉字,如:XX 区YY 县ZZ 镇人民代表大会常务委员会,简称为“ZZ 镇人大”。
在制图中对于点要素名称的标注,当名称长度超过6个字符时,为了地图美观和有限的图幅内能容纳更多的标注信息,一般对名称采取换行标注或采用名称简称的方式进行标注。如,中国社会科学院,简称为“社科院”;XX 市税务局 YY 区(县)分局第一税务所,简称为“YY 区(县)第一地税所”。
POI名称简称制图效果前后对比:
简称规范参考国家天地图数据融合要求附件中的“D.5 ABBREVIATION(简称)”处理。此标准,明确了政府机构、社会团体、职能部门等类型的兴趣点的简称规范,其标准对指导名称简称有着重要的意义。但此标准对地址结构化的数据,有着地域特色的名称,没有涵盖
部分简称规则如下:
名称 | 简称 |
---|---|
XX 区(县)公安分局 YY 派出所 | YY 派出所 |
XX 区(县)高级人民法院 | XX 区(县)高级法院 |
XX 市公安局交通警察支队 YY 大队 | YY 交警大队 |
XX 市第三中级人民法院 | XX 市第三中级法院 |
XX 区(县)人民法院 YY 人民法庭 | YY 法庭 |
XX 市公安局公安交通管理局车辆管理所 YY 分所 | YY 车管所 |
XX 市人民政府驻 YY 联络处 | XX 市政府驻 YY 联络处 |
XX 市人民政府驻 YY 办事处 | XX 市政府驻 YY 办 |
XX 区(县)残疾人联合会 | XX 区(县)残联 |
XX 区(县)妇女联合会 | XX 区(县)妇联 |
XX 区(县)消费者协会 | XX 区(县)消协 |
二、POI简称处理工具介绍
工具中提供了两种方式对名称进行简称处理。一是完全采取正则表达式的方式来检索点位名称,再按照“POI 简称制作表”进行简称处理。二是使用开源的HanLP 自然语言处理包,通过添加自定义词典后(没有可以不添加),对点要素名称进行分词、词性标注、关键词提取、依存句法分析等操作,再按POI 简称制作表的规则进行简称处理。
POI简称处理工具运行过程:
工具参数说明:
注意事项:
在做名称简称前,应对简称字段做一定的规范化处理,以确保简称结果的可靠性。如去除特殊字符,括号等。
使用正则表达式的方式对名称进行简称处理,由于点要素名称中可能包含“中国”、“省”、“区”等词汇,但名称中出现此类词汇并不代表行政级别,会造成简称错误的情况。而使用HanLP自然语言处理包,可配置当地的行政区划名称、企事业单位目录、关键词表等,训练用户自己的领域模型,提高分词准确率,解决使用正则表达式方式对名称做简称处理中出现的错误。
工具输出:
根据选择简称的方式,输出要素类“{要素类名称}_abbre_hanlp”或“{要素类名称}_abbre_re”,存放在输出目录中的scratch.gdb中。若scratch.gdb不存在,则自动创建,若已存在,不会覆盖其中已有的要素。
通过点要素名称简称处理后,在属性表中添加abbre_name 字段,用于记录名称简称后的结果。
工具执行结果示例: