地图POI类别标签体系建设实践

高德技术

于 2019-08-27 09:39:09 发布

阅读量2.1k

点赞数 2

本文链接：https://blog.csdn.net/amap_tech/article/details/100147954

版权

本文详细介绍了地图POI类别标签的建设过程，包括标签的定义、难点、技术方案以及收益。通过样本工程和模型设计解决多标签分类问题，利用点击日志和外部资源挖掘样本，采用深度学习模型textCNN进行文本特征与非文本特征的融合，提升打标准确性和覆盖率。最终，新标签体系显著提升了搜索质量，促进了用户体验的改善。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击上方蓝字,关注高德技术！

导读

POI是“Point of interest”的缩写，中文可以翻译为“兴趣点”。在地图上，一个POI可以是一栋房子、一个商铺、一个公交站、一个湖泊、一条道路等。在地图搜索场景，POI是检索对象，等同于网页搜索中的网页。在地图客户端上，用户选中一个POI，会有一个悬浮的气球指向这个POI。

如上图左边，这家商场内的屈臣氏是一个POI；而所谓类别标签，就是在类别维度对POI属性的一种概括，比如，屈臣氏的类别标签化妆品，而屈臣氏所坐落的凯德mall，类别标签是商场；右侧则是商场query搜索召回的一系列POI，都具有和query相匹配的类别属性。

上图也展示了类别标签的两种主要使用场景：为用户提供丰富信息和支持决策，一方面在前端为用户显示更丰富的信息，另一方面支持搜索的类别搜索需求，主要是在地图场景query和POI双方都具有丰富的多义表达，通过传统的文本匹配引擎或者简单的同义词泛化是难以达到目的的，因此挖掘标签作为召回和排序依据。

我们的类目体系建设主要依据以下几点：

用户实际的query表达，主要为了支持用户的搜索需求；
真实世界的客观类目分布，以及pm对该分布的认知；
不同标签间的从属、并列关系。

最终每个大类将构建一个多层的多叉树体系，比如购物类别的划分：

类别标签建设的难点

我们的目标是打标，就是将POI映射到上面类目树体系的各个节点上，很显然这是一个分类问题，但又不是一个单纯的分类问题：

多标签问题：屈臣氏打上化妆品的标签，是一个一对一的映射；而部分POI，可能同时具有多个标签，比如汤泉良子，可以洗浴、按摩、足疗；xx家具店，打上家具店标签同时，必须打上其父节点家居建材标签。整体上，这是一个多标签问题，而不是多分类问题；
文本相关问题：大多数的POI具有比较直观的文本标题，比如小牛电动车、海尔专卖店、东英茗茶、熙妍精衣、新生贵族，通过名称文本分析，可以预测出比较正确的结果。另一方面，又不是纯文本问题，比如苹果专卖，仅从文本无法确认是一个手机店，还是一个水果店；还有一些表达，比如老五批发，低频表达或者不含类别信息，则需要引入其他特征来进行解决；
综合性问题：算法可能解决主要问题，但现实世界的复杂，通过单纯的算法是难以完全覆盖的，比如酒吧中夜店和清吧的区分，三甲医院、汽车4S店的打标，低频品牌的识别等，通过受限的样本和特征无法尽数解决，但又无法置之不理。

此外，应用方对于标签的准召和产出速率也有较高的要求：打标准确率低，则可能导致用户搜索时召回错误POI；覆盖率低，则可能导致用户期待的结果被漏掉；而待建设的大分类有20+，同时每个大分类有数十个子标签，大小标签总量上千。则必须使用高速高效、准召均有保障的方法进行打标，才能有效落地收益。

综上，我们要解决的类别标签打标的主要问题，是一个多标签分类问题，主要使用文本进行识别，但有必要引入其他非文本特征或手段，才能比较完满的解决。

技术方案

3.1 整体方案设计