深度学习在高德POI鲜活度提升中的演进

本文介绍了高德地图如何利用深度学习技术提升POI(兴趣点)鲜活度,通过时序模型和特征工程解决过期POI识别问题。通过RNN和Wide&Deep等模型的迭代优化,结合注意力机制的TCN模型,提高了识别准确率和自动化能力。目前,模型正逐步考虑个体差异性以实现精细化挖掘。
摘要由CSDN通过智能技术生成

1.导读

高德地图拥有着数千万的POI(Point of Interest)兴趣点,如学校、酒店、加油站、超市等。其中伴随着众多POI创建的同时,会有大量的POI过期,如停业、拆迁、搬迁、更名。这部分POI对地图鲜活度和用户体验有着严重的负面影响,需要及时有效地识别并处理。

由于实地采集的方式成本高且时效性低,挖掘算法则显得格外重要。其中基于趋势大数据的时序模型,能够覆盖大部分挖掘产能,对POI质量提升有着重要意义。

过期POI识别本质上可以抽象为一个数据分布非对称的二分类问题。项目中以多源趋势特征为基础,并在迭代中引入高维度稀疏的属性、状态特征,构建符合业务需求的混合模型。

本文将对深度学习技术在高德地图落地的过程中遇到的业务难点,和经过实践检验的可行方案进行系统性的梳理总结。

2.特征工程

过期挖掘的实质是感知伴随POI过期而发生的变化,进行事后观测式挖掘,一般都会伴随着POI相关活跃度的下降。因此时序模型的关键是构建相关联的特征体系。同时在实践中我们也构造了一些有效的非时序特征进行辅助校正。

2.1时序特征

时序特征方面,建立了POI和多种信息的关联关系,并分别整合为月级的统计值,作为时序模型的输入;时间序列窗口方面,考虑到一些周期性的规律的影响,需要两年以上的序列长度来训练模型。

2.2辅助特征

辅助特征方面,首先是将人工核实历史数据进行有效利用。方式是构造一个时间序列长度的One-Hot向量,将最后一次人工核实存在的月份标记为1,其他月份为0。人工核实存在表示该时间结点附近过期概率较低,若人工更新在趋势下降之后,说明趋势表征过期的概率不高。

 

其次,调研发现不同行业类型的POI有着不同的过期概率,如餐饮和生活服务类过期概率较高,而地名或公交站点等类型则相对低很多。因此将行业类型编号构建为一个时间序列长度的等值向量,作为静态辅助特征。

 

第三种辅助特征是在分析业务中的漏召回问题时总结构造的。发现有相当部分的新诞生POI,其入库创建后至今的时长短于序列长度。意味着这部分序列前期存在较多数值为零的伪趋势,会对尾部的真实下降趋势造成干扰从而误判。对此提出了两种优化思路:

  • 采用可变长度的RNN模型,只截取POI创建时间之后部分的序列作为输入。

  • 序列长度不变,添加一维“门”序列特征,序列在POI创建时间之前的部分数值为0,之后为1。如图所示。

 

对比采用第二种方案效果更优。考虑到我们

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值