Cross-lingual Document Retrieval using Regularized Wasserstein Distance

最新推荐文章于 2024-05-30 12:10:29 发布

秦时明月照我心

最新推荐文章于 2024-05-30 12:10:29 发布

阅读量284

点赞数

分类专栏：自然语言处理跨语言信息检索

本文链接：https://blog.csdn.net/weixin_43087818/article/details/103593783

版权

使用正则化的Wasserstein距离进行跨语言文档检索

Introduction：
许多信息检索算法都依赖于有效距离的概念，该距离可以有效地比较不同性质的对象。最近，提出了一种新的矩阵：Word Mover’s Distance，用于测量文本段落之间的差异。在本文中：提出两种扩展方法：
1.在Word Mover’s Distance上融入词的权重
2.在Word Mover’s Distance上加入熵正则化
我们在八个CLDR问题上的实验结果表明，相对于几个基准，本文所提出的方法在平均文档排名方面取得了显着改善。
估计文本段落之间的距离是信息检索应用程序（如文档检索，摘要和问题解答）的核心。
对于Word Mover’s Distance，源文本和目标文本的跨度是通过词袋表示法以高维概率密度来表示的。
考虑到源文本和目标文本是以高维概率密度表示的，Word Mover’s Distance旨在找到一种地图（或运输计划），该地图（或运输计划）在将源文本密度转换为目标文本密度的ground metric的基础上，将总运输成本降至最低。文本数据的ground metric可以使用wordembedding进行估算。
Word Mover’s Distance的一个有趣特征是，它可以在概率测度的空间上定义了合适的矩阵。与其他统计距离测度（例如f-和Jensen-Shannon散度）相比，该距离具有多个优势：（1）Word Mover’s Distance由ground metric参数化，可灵活地将其适应各种变化数据类型；（2）由于Word Mover’s Distance能够通过分布点之间的成对距离考虑数据的几何形状，因此它是一种非常有效的距离指标。
在本文中，我们的目标是展示信息检索（IR）应用程序如何从Wasserstein距离中受益。我们证明，对于文本应用程序，Wasserstein距离可以自然地融合不同的加权方案，这些方案在IR应用程序中特别有效，例如反向文档频率。而且我们使用Word Mover’s Distance的正则化版本，该版本依赖于熵正则化，从而可以获得更平滑，因此更稳定的结果，并使用有效的Sinkhorn-Knopp矩阵算法来解决Word Mover’s Distance问题。
在此特定上下文中，我们提出了一种基于形态相似性morphological similarity来处理词典外的单词的新策略。
Preliminary knowledge：
在本节中，我们主要介绍OT问题以及其熵正则化版本，稍后将使用该熵正则化版本来计算正则化Wasserstein距离。
1最优运输问题：
最优运输问题理论最初是用于研究资源分配问题，它为比较概率分布提供了强大的几何工具。
给定两个点集，计算这两个点集的离散经验概率：