《Nearest Neighbor Knowledge Distillation for Neural Machine Translation》https://arxiv.org/pdf/2205.00479.pdf
简介
这是一篇2022年发表在NAACL的一篇机器翻译的论文,是针对21年提出的用kNN(k Nearest Neighbor) Search来decoding的机器翻译方法的改进,这篇论文简洁明了地介绍了kNN Search decoding的原理,并且针对kNN Search带来的庞大的decoding计算开销进行改进:用知识蒸馏的方式将KNN Search由decoding阶段提前到模型训练之前——提前训练一个以kNN为学习目标的教师模型、在训练过程中教师模型指导学生模型训练,使得最终的学生模型学习到kNN的知识,在decoding阶段按照常规的seq2seq解码方式正常进行,从而解决了基础论文的decoding就算开销大的问题。
Nearest Neighbor Machine Translation
先介绍一下核心的基础工作——kNN Search for translation。
这项工作就是两步:
1、建立表征知识库;
2、在decoding时利用表征知识库。
表征知识库
论文中称为DataStore,其实概念特别简单,就是由<representation_vector,word >键值对构成的集合。其中,representaion_vec