闲鱼别名知识库数据挖掘与工程建设

摘要

一些与地理位置相关的业务(如租房业务),会基于地理兴趣点(以下简称POI)去构建,为该地点的用户提供更精细化的服务。

通常一个POI都会有一个官方名称,有的会有别名称呼,例如北京大学,又称为北大。这些POI点周围的用户通常习惯用别名去进行搜索,如果没有这些别名数据,可能会导致提供给用户的信息有误。因此如何获取现实中地址的别名,并通过别名知识系统服务于业务,就显得很重要。

640?wx_fmt=jpeg

1:别名生成模型概要图

业界目前还没有公开的地理别名数据信息,有些是通过人工采集,有些通过机器学习或深度学习对别名数据进行挖掘等,成本都比较高。本文另辟蹊径,通过二种方法对地理别名数据进行挖掘:1.基于内容上下文高维向量的别名抓取技术(如图1所示);2. 基于收货地址相同语境词的分析技术。这些方法实现程度相对简捷和高效,成本较低。此外,对挖掘出的别名数据,建立了一套知识库系统,用于支持地理别名数据的使用。

 

关键词:

地理别名,POI,收货地址,知识库

 

一. 别名数据的挖掘

1. 根据内容上下文高维向量的别名抓取技术

有图2两个收货地址

640?wx_fmt=png

2:收货地址上下文比较

如何判断两个收货地址是否相似,可以通过文本相似性算法进行计算,文本相似性算法有很多,本文选择余弦相似性算法。图3为三角形的余弦函数计算公式<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值