1.导读
人们在高德地图上会看到很多地理位置兴趣点(Point of Interest,缩写为POI),例如餐厅、超市、景点、酒店、车站、停车场等。对POI数据的评价维度包括现势性、准确性、完备性和丰富性。其中,现势性就是地图所提供的地理空间信息反映当前最新情况的程度,简而言之,增强现势性就是指尽可能快速地发现已停业、搬迁、更名、拆迁的过期冗余POI数据,并将其处理成下线状态的过程。
在线的过期冗余数据会伤害用户体验,经过推算,头部在线数据的一个过期率百分点年度影响用户体验3亿次。因此,POI过期问题的解决势在必行,以增强现势性,减少用户伤害。
POI过期问题的解决分为发现和处理两个环节。发现采用挖掘线主导,采集线和舆情线补位的方式。采集的天然优势是自带核实资料,劣势也很明显,成本高、下发频率低,因而发现的时效性不高,且采集线发现过期需要经过挖掘线;互联网舆情时效性高,但覆盖少且ROI低;作为覆盖高、时效高、成本低的大数据挖掘是绝对主力。
处理环节有人工核实、自动化打标和自动化下线三种手段。人工核实存在缺少核实资料从而导致核实率低的问题,这是因为挖掘所依赖的观测资料不能提供过期的实锤证据,观测资料不等于核实资料,且过期的数据更倾向于核实不到,即能发现、难处理,从而伴随着挖掘的演进,衍生了自动化打标和自动化下线两种处理手段以及相应的风险控制机制(打标回捞、下线回捞),一方面提高了处理能力,另一方面降低了人工成本。
注:自动化打标是一种与前端搜索联动灰度处理高疑似过期数据的方式—打标数据非精搜不展现,精搜伴有话术提示。其背后的核心思路是由传统图商的实锤思维向互联网思维转变,及时触达用户,快上快下。
本篇文章将主要介绍挖掘的演进历程,作为过期发现的核心手段,挖掘在不同阶段分别面临缺资料、提准难、资料薄三大问题,站在今天回首过去,这个过程可以分为三个阶段:
基于自身属性的POI过期挖掘
基于使用行为的POI过期挖掘
基于人地关系的POI过期挖掘
我们利用策略、机器学习和深度学习等数据挖掘技术,从点到面、由粗到精地攻克POI过期挖掘业务,POI现势性增强的模式已经发生了深刻的变化。
2.数据挖掘手段的演进
2.1阶段一:基于自身属性的POI过期挖掘
早期的主要矛盾是缺少挖掘资料,如果同时做资料的POI挂接和基于挂接资料的挖掘策略会导致挖掘链路长、项目风险高。因此,在提升新资料的POI聚合能力的同时,以POI自身属性作为主要的挖掘资料