NLP 论文领读|无参数机器翻译遇上对比学习:效率和性能我全都要!

本文介绍了如何通过聚类和对比学习压缩特征维度,以及采用N-Gram剪枝策略,提升无参数机器翻译模型的效率和性能。论文《Efficient Cluster-Based k-Nearset-Neighbor Machine Translation》提出的方法在多个领域数据集上取得了较好的效果。
摘要由CSDN通过智能技术生成

欢迎关注「澜舟论文领读」专栏!关注“澜舟科技”公众号探索更多 NLP 前沿论文!

本期分享者:付宇

澜舟科技算法研究实习生,天津大学硕士二年级,研究方向为检索增强机器翻译、文本摘要。邮箱:fuyu_1998@tju.edu.cn

写在前面

检索式增强在各种自然语言处理任务中被广泛应用,其主要目的是基于一定的检索范式来利用现存数据,影响模型最终得到的结果,从而降低模型参数的负担。之前澜舟公众号已经发布了一篇相关的论文领读《别再第四范式:看看新热点检索增强怎么做文本生成!》对检索增强的任务进行了概述。本文我们聚焦在机器翻译领域,介绍在机器翻译中最新的利用检索来进行增强的范式!

论文标题

Efficient Cluster-Based k-Nearset-Neighbor Machine Translation

论文作者

Dexin Wang, Kai Fan, Boxing Chen, Deyi Xiong

论文单位

天津大学,阿里巴巴达摩院

论文链接

https://aclanthology.org/2022.acl-long.154/

KNN 背景介绍

图 1 基于 KNN 的机器翻译模型

基于 KNN 的检索式增强首先在 Language Model 上被提出 [1],在 2021 的 ICLR 文章 [2] 中,首先将 KNN 增强的方法应用到了机器翻译上, 通过 KNN 的词级别的检索和融合,能够在不进行特定领域训练的前提下,有效提高模型在领域数据集上的效果。

其包含两个主要的步骤:首先是创建数据库(Datastore),也就是使用基础模型来进行正向传播,利用在解码时候映射到词表前的特征和对应的目标词作为键值对存储在 Datastore 中,对应图 1 中 Datastore 的 Representation 和 Target。正式翻译时,在每个具体的解码步骤中,使用相同位置的特征,从 Datastore 中进行向量检索,使用检索的结果以及对应的距离(Distances),结合温度超参数来计算得到最终的概率(对应公式 1),将得到的概率作为目标词概率按照一定比例融合到原始模型输出词表的概率分布上(对应公式 2)。

(公式 1)

其中 N \mathcal{N} N 表示在 Datastore 中进行向量检索得到的 N 个键值对, T T T 表示温度超参数, I y i = v i \mathbb{I}_{y_i=v_i} Iy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值