欢迎关注「澜舟论文领读」专栏!关注“澜舟科技”公众号探索更多 NLP 前沿论文!
本期分享者:付宇
澜舟科技算法研究实习生,天津大学硕士二年级,研究方向为检索增强机器翻译、文本摘要。邮箱:fuyu_1998@tju.edu.cn
写在前面
检索式增强在各种自然语言处理任务中被广泛应用,其主要目的是基于一定的检索范式来利用现存数据,影响模型最终得到的结果,从而降低模型参数的负担。之前澜舟公众号已经发布了一篇相关的论文领读《别再第四范式:看看新热点检索增强怎么做文本生成!》对检索增强的任务进行了概述。本文我们聚焦在机器翻译领域,介绍在机器翻译中最新的利用检索来进行增强的范式!
论文标题
Efficient Cluster-Based k-Nearset-Neighbor Machine Translation
论文作者
Dexin Wang, Kai Fan, Boxing Chen, Deyi Xiong
论文单位
天津大学,阿里巴巴达摩院
论文链接:
https://aclanthology.org/2022.acl-long.154/
KNN 背景介绍

图 1 基于 KNN 的机器翻译模型
基于 KNN 的检索式增强首先在 Language Model 上被提出 [1],在 2021 的 ICLR 文章 [2] 中,首先将 KNN 增强的方法应用到了机器翻译上, 通过 KNN 的词级别的检索和融合,能够在不进行特定领域训练的前提下,有效提高模型在领域数据集上的效果。
其包含两个主要的步骤:首先是创建数据库(Datastore),也就是使用基础模型来进行正向传播,利用在解码时候映射到词表前的特征和对应的目标词作为键值对存储在 Datastore 中,对应图 1 中 Datastore 的 Representation 和 Target。正式翻译时,在每个具体的解码步骤中,使用相同位置的特征,从 Datastore 中进行向量检索,使用检索的结果以及对应的距离(Distances),结合温度超参数来计算得到最终的概率(对应公式 1),将得到的概率作为目标词概率按照一定比例融合到原始模型输出词表的概率分布上(对应公式 2)。

(公式 1)
其中 N \mathcal{N} N 表示在 Datastore 中进行向量检索得到的 N 个键值对, T T T 表示温度超参数, I y i = v i \mathbb{I}_{y_i=v_i} Iy

本文介绍了如何通过聚类和对比学习压缩特征维度,以及采用N-Gram剪枝策略,提升无参数机器翻译模型的效率和性能。论文《Efficient Cluster-Based k-Nearset-Neighbor Machine Translation》提出的方法在多个领域数据集上取得了较好的效果。
最低0.47元/天 解锁文章
652

被折叠的 条评论
为什么被折叠?



