Cross-lingual Document Retrieval using Regularized Wasserstein Distance

使用正则化的Wasserstein距离进行跨语言文档检索

Introduction
许多信息检索算法都依赖于有效距离的概念,该距离可以有效地比较不同性质的对象。最近,提出了一种新的矩阵:Word Mover’s Distance,用于测量文本段落之间的差异。在本文中:提出两种扩展方法:
1.在Word Mover’s Distance上融入词的权重
2.在Word Mover’s Distance上加入熵正则化
我们在八个CLDR问题上的实验结果表明,相对于几个基准,本文所提出的方法在平均文档排名方面取得了显着改善。
估计文本段落之间的距离是信息检索应用程序(如文档检索,摘要和问题解答)的核心。
对于Word Mover’s Distance,源文本和目标文本的跨度是通过词袋表示法以高维概率密度来表示的。
考虑到源文本和目标文本是以高维概率密度表示的,Word Mover’s Distance旨在找到一种地图(或运输计划),该地图(或运输计划)在将源文本密度转换为目标文本密度的ground metric的基础上,将总运输成本降至最低。文本数据的ground metric可以使用wordembedding进行估算。
Word Mover’s Distance的一个有趣特征是,它可以在概率测度的空间上定义了合适的矩阵。与其他统计距离测度(例如f-和Jensen-Shannon散度)相比,该距离具有多个优势:(1)Word Mover’s Distance由ground metric参数化,可灵活地将其适应各种变化数据类型;(2)由于Word Mover’s Distance能够通过分布点之间的成对距离考虑数据的几何形状,因此它是一种非常有效的距离指标。
在本文中,我们的目标是展示信息检索(IR)应用程序如何从Wasserstein距离中受益。我们证明,对于文本应用程序,Wasserstein距离可以自然地融合不同的加权方案,这些方案在IR应用程序中特别有效,例如反向文档频率。而且我们使用Word Mover’s Distance的正则化版本,该版本依赖于熵正则化,从而可以获得更平滑,因此更稳定的结果,并使用有效的Sinkhorn-Knopp矩阵算法来解决Word Mover’s Distance问题。
在此特定上下文中,我们提出了一种基于形态相似性morphological similarity来处理词典外的单词的新策略。
Preliminary knowledge
在本节中,我们主要介绍OT问题以及其熵正则化版本,稍后将使用该熵正则化版本来计算正则化Wasserstein距离。
1最优运输问题:
最优运输问题理论最初是用于研究资源分配问题,它为比较概率分布提供了强大的几何工具。
给定两个点集,计算这两个点集的离散经验概率:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值