《Nearest Neighbor Knowledge Distillation for Neural Machine Translation》
https://arxiv.org/pdf/2205.00479.pdf
简介
这是一篇2022年发表在NAACL的一篇机器翻译的论文,是针对21年提出的用kNN(k Nearest Neighbor) Search来decoding的机器翻译方法的改进,这篇论文简洁明了地介绍了kNN Search decoding的原理,并且针对kNN Search带来的庞大的decoding计算开销进行改进:用知识蒸馏的方式将KNN Search由decoding阶段提前到模型训练之前——提前训练一个以kNN为学习目标的教师模型、在训练过程中教师模型指导学生模型训练,使得最终的学生模型学习到kNN的知识,在decoding阶段按照常规的seq2seq解码方式正常进行ÿ