论文笔记--Vecalign: Improved Sentence Alignment in Linear Time and Space

Vecalign是一种新的句子对齐方法,利用LASER库的多语言句子嵌入,在线性时间复杂度内完成对齐,改进了动态规划过程并解决了高维空间的Hubness问题,提高了效率和性能。在德语-法语对齐任务中,该方法表现出优于现有最佳方法的F1分数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 文章简介

  • 标题:Vecalign: Improved Sentence Alignment in Linear Time and Space
  • 作者:Brian Thompson, Philipp Koehn
  • 日期:2019
  • 期刊:ACL

2. 文章导读

2.1 概括

  文章通过使用目标语言和源语言的向量嵌入,给出了一种仅消耗线性时间、空间复杂度(相对于句子数量俩说)的新型的句子对齐方法。相比于State-of-the-art方法性能有所提升。
  一般来说,句子对齐可分解为两个步骤: 1)计算得分函数,表示源句子与与其相邻的句子的相似度 2)输入源文档和翻译文档,通过得分函数将源文档和目标翻译文档的句子进行配对。文章在上述两部分均进行了改良:1) 文章定义了一个新型的得分函数 2) 文章改良了文档匹配的动态规划(DP, Dynamic Progamming)过程,得到了线性时间空间复杂度的算法,在原有的二次复杂度基础上大幅提升了计算效率。

2.2 文章重点技术

2.2.1 句子嵌入

  文章通过识别句子嵌入之间的相似度得到句子对齐关系。这里采用多语言(93种语言)开源句子表示库LASER来得到源句子和目标句子的嵌入。

2.2.2 相似度

  文章选用Cosine Similarity来进行相似度度量: cos ⁡ ( A ⃗ , B ⃗ ) = A ⃗ ⋅ B ⃗ ∥ A ⃗ ∥ ∥ B ⃗ ∥ ∈ [ − 1 , 1 ] \begin{equation}\cos(\vec{A}, \vec{B}) = \frac {\vec{A}\cdot \vec{B}}{\Vert\vec{A}\Vert \Vert\vec{B}\Vert}\in [-1,1]\end{equation} cos(A ,B )=A ∥∥B

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值