©PaperWeekly 原创 · 作者 | 王馨月
单位 | 四川大学
研究方向 | 自然语言处理
机器翻译
1.1 CSANMT
论文标题:
Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation
论文链接:
https://arxiv.org/abs/2204.06812
项目地址:
https://github.com/pemywei/csanmt
监督神经机器翻译(neural machine translation, NMT)的主要任务是学习从一组平行句子对中生成以源输入为条件的目标句子,从而产生一个能够泛化到未见实例的模型。然而,模型的泛化能力很大程度上受训练使用的并行数据量的影响。这篇文章的作者提出了一种新的数据增强范式,称为连续语义增强(Continuous Semantic Augmentation, CSANMT) ,它为每个训练实例增加了一个邻接语义区域,该区域可以覆盖相同含义下的充足的文字表达变体。作者对多语言和不同资源设置下进行实验,结果表明,CSANMT 相比现有的增强技术大幅提升了性能。
上图是 CSANMT 的框架。
为了将模型推广到未见实例,作者提出了两个问题:1)如何优化语义编码器,使其为每个观察到的训练对产生一个有意义的邻接语义区域;2)如何从邻接语义区域中高效且有效地获取样本。针对这两个问题,作者提出了对应的解决方案。
切线对比学习(Tangential Contrastive Learning):如上图所示。
MGRC 采样 (Mixed Gaussian Recurrent Chain Sampling):如上图所示。
1.2 PCKMT
论文标题:
Efficient Cluster-Based k-Nearest-Neighbor Machine Translation
论文链接:
https://arxiv.org/abs/2204.06175
项目地址:
https://github.com/tjunlp-lab/PCKMT
最近提出的 k- 最近邻机器翻译(k-Nearest-Neighbor Machine Translation,kNN-MT)作为神经机器翻译(NMT)中域适应的非参数解决方案。它旨在通过与由域内数据构建的附加 token 级基于特征的检索模块协调来缓解高级 MT 系统在翻译域外句子时的性能下降。先前的研究证明,非参数 NMT 甚至优于对域外数据进行微调的模型,但 kNN 检索是以高延迟为代价的,特别是对于大型数据存储。
为了实用性,这篇文章的作者探索了一种更有效的 kNN-MT,并提出使用聚类来提高检索效率。作者首先提出了一种基于集群的紧凑网络,以对比学习的方式进行特征缩减,将上下文特征压缩为 90+% 的低维向量。然后,使用基于集群的剪枝解决方案来过滤大型数据存储中 10%~40% 的冗余节点,同时保持翻译质量。作者提出的方法在几个 MT 基准上与先进的非参数 MT 模型相比,实现了更好或相当的性能,同时减少了高达 57% 的推断延迟。实验结果表明,所提出的方法保留了原始数据存储中最有用的信息,并且紧凑网络在未见域上表现出良好的泛化性。
上图是本文提出方法的示意图,C-X("#") 表示 token “#” 的第 X 个簇。首先,基于集群的紧凑网络用于降低原始数据存储的密钥维数,并重建一个新的数据存储。然后应用基于集群的剪枝来减少数据存储的大小。
上图是紧凑网络的示意图。
上图是基于集群的剪枝算法。
1.3 Human Evaluation for Machine Translation
论文标题:
Toward More Effective Human Evaluation for Machine Translation
论文链接:
https://arxiv.org/abs/2204