论文笔记--Vecalign: Improved Sentence Alignment in Linear Time and Space

最新推荐文章于 2025-05-17 20:15:04 发布

Isawany

最新推荐文章于 2025-05-17 20:15:04 发布

阅读量425

点赞数 1

分类专栏：论文阅读文章标签：论文阅读机器学习动态规划语言模型机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38124427/article/details/130041479

版权

Vecalign是一种新的句子对齐方法，利用LASER库的多语言句子嵌入，在线性时间复杂度内完成对齐，改进了动态规划过程并解决了高维空间的Hubness问题，提高了效率和性能。在德语-法语对齐任务中，该方法表现出优于现有最佳方法的F1分数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文笔记--Vecalign: Improved Sentence Alignment in Linear Time and Space

1. 文章简介
2. 文章导读
3. 数值实验
4. 文章亮点
5. 原文传送门
6. References

1. 文章简介

标题：Vecalign: Improved Sentence Alignment in Linear Time and Space
作者：Brian Thompson, Philipp Koehn
日期：2019
期刊：ACL

2. 文章导读

2.1 概括

文章通过使用目标语言和源语言的向量嵌入，给出了一种仅消耗线性时间、空间复杂度（相对于句子数量俩说）的新型的句子对齐方法。相比于State-of-the-art方法性能有所提升。
一般来说，句子对齐可分解为两个步骤: 1）计算得分函数，表示源句子与与其相邻的句子的相似度 2）输入源文档和翻译文档，通过得分函数将源文档和目标翻译文档的句子进行配对。文章在上述两部分均进行了改良：1) 文章定义了一个新型的得分函数 2) 文章改良了文档匹配的动态规划(DP, Dynamic Progamming)过程，得到了线性时间空间复杂度的算法，在原有的二次复杂度基础上大幅提升了计算效率。

2.2 文章重点技术

2.2.1 句子嵌入

文章通过识别句子嵌入之间的相似度得到句子对齐关系。这里采用多语言（93种语言）开源句子表示库LASER来得到源句子和目标句子的嵌入。

2.2.2 相似度

文章选用Cosine Similarity来进行相似度度量： $\begin{equation}\cos(\vec{A}, \vec{B}) = \frac {\vec{A}\cdot \vec{B}}{\Vert\vec{A}\Vert \Vert\vec{B}\Vert}\in [-1,1]\end{equation}$

最低0.47元/天解锁文章

博客等级

码龄8年

89
原创

265
点赞

281
收藏

169
粉丝

关注

私信

热门文章

分类专栏

吴恩达ChatGPT系列课程学习 9篇
论文阅读 80篇

展开全部收起

最新评论

论文笔记--Skip-Thought Vectors
Isawany: 你试试从这下呢 http://mirror.nubenum.de/www.cs.toronto.edu/~rkiros/models/
论文笔记--Skip-Thought Vectors
xhns123: 博主好，看你的论文笔记学到了很多。我去下载skip-thought模型的时候，发现github上开源的下载链接失效了，不知道你保存了吗？如果保存了能否给我发个压缩包，万分感谢。903695886@qq.com
论文笔记--Llama3 report
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记--kNN PROMPTING: BEYOND-CONTEXT LEARNING WITH CALIBRATION-FREE NEAREST NEIGHBOR INFERENCE
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记--Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Isawany: 已更正，感谢～again

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。