![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NMT论文笔记
文章平均质量分 74
QingerBig
这个作者很懒,什么都没留下…
展开
-
HW-TSC’s Participation in the WMT 2020 News Translation Shared Task
本文作者主要介绍了华为参加WMT2020所使用的系统。在模型方面,作者使用Transformer-Big作为基线模型,在模型性能方面,作者也使用了较为常用的训练策略,如反译、集成知识蒸馏等手段。作者主要参加了三组语言六个方向的翻译测试,分别是:中英、高棉语英语、普什图语英语。对于每一个语言对,作者都应用了多步细粒度的数据清洗方法,保证只有高质量的数据子集被用于模型的训练。DataData source(Zh/En)对于双语数据,作者合并了CCMT、Wiki Titles V1、News Comme原创 2021-03-16 09:50:10 · 454 阅读 · 0 评论 -
Tencent Neural Machine Translation Systems for the WMT20 News Translation Task
本文主要介绍了WMT2020中腾讯所使用的NMT系统。该系统被应用于英中、中英、英德翻译任务上。在本系统中较为核心的技术为深层Transformer及数据增强等技术。作者主要提出了一种改进单一模型的增强域内微调方法。在ensemble方法方面,作者提出了一种iterative transductive的ensemble方法,可以在集成模型的基础上,进一步提高模型性能。作者在实践中发现领域内的微调是一种十分有效的方法,于是作者提出了一种增强微调(boosted finetuning)的方法对于英中和中英任务原创 2021-03-15 09:43:28 · 486 阅读 · 0 评论 -
The NiuTrans Machine Translation Systems for WMT20
本文主要介绍了WMT20中有关NiuTrans系统的实现。该系统在WMT20的日英双向任务上取得了第一名的成绩。总的来看,本系统主要使用了回译、不同深度和宽度的模型、循环知识蒸馏和循环微调等技术。作者发现,在这之中使用合适的宽度和深度模型,模型的性能会得到大幅度的提升。模型训练的步骤如下:1、数据预处理及过滤;2、迭代回译生成伪数据;3、使用不同的翻译模型去丰富模型翻译的多样性;4、通过领域内的多语数据进行迭代知识蒸馏;5、使用领域内数据并应用较小的训练batch进行模型微调;6、翻译后处理。Syst原创 2021-03-14 15:54:26 · 529 阅读 · 0 评论 -
Improving Transformer Optimization Through Better Initialization
在本文中,作者对Transformer难以优化这一问题进行了探究,并对模型的初始化方法提出了改进。在Transformer框架中,self-attention的引入使得模型变得难以优化,想要有效的对其进行优化必须使用一些训练上的技巧,如learning rate warmup。本文作者的贡献主要在以下两个方面:分析了transformer难以被优化的原因。提出了一种新的权重初始化策略,使用该策略可以使得模型在没有warmup和LN的情况下被训练。Transformer的成功训练一般需要以下因素:原创 2021-03-12 11:46:10 · 627 阅读 · 0 评论 -
Multiscale Deep Equilibrium Models
简介在本文中,作者提出了一种全新的隐式网络结构即Mutiscale Deep Equilibrium Model简称MDEQ,是对DEQ模型的一个推广版本。关于DEQ的讲解稍后会进行整理。简单的说,MDEQ就是将DEQ模型应用到多尺度上,例如分别对图像不同尺度的像素求其平衡点,这样多尺度处理的特性,也可以使得模型可以进行多任务的学习。在本文中作者主要将其应用到图像分类与语义分割两个任务上。在图像领域,一张图片可能会包含上百万个像素,这使得多尺度操作显得尤为重要,这一般包括如向下采样以及向上采样的过程原创 2021-03-11 11:27:05 · 1413 阅读 · 0 评论 -
论文阅读笔记--Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Trans
2021.1.27 Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation本文时间较早,所介绍的GNMT是全球第一个正式上线的NMT系统,并达到了当时的SOTA的水平,GNMT使用了8层的LSTM的encoder、8层LSTM的decoder以及attention方法。作者充分考虑了NMT模型当时的弊端如训练速度、推断速度、未知词等问题,分别对上述问题进行了解决。原创 2021-01-27 15:46:09 · 978 阅读 · 0 评论 -
论文阅读笔记--Learning Light-Weight Translation Models from Deep Transformer
本文探究了一种知识蒸馏和一种skipping sub-layer方法去实现将深层模型所学的知识转移到一个浅层网络当中。Compression of Deep Transformer本文的核心思想:将一个大型网络所学习到的知识转移到一个小的轻型网络当中。具体来说,本文使用的方式是知识蒸馏,即使小的模型学习大的模型的输出分布,作者所基于的知识蒸馏并不是传统的知识蒸馏的形式,而是equence-level knowledge distillation (SKD)。同时作者具体的训练策略为:1、在训练tea原创 2021-01-25 10:30:45 · 356 阅读 · 0 评论 -
Neural Machine Translation of Rare Words with Subword Units论文阅读笔记
作者的观点:在本文中作者认为神经机器翻译(Neural machine translation,NMT)模型通常使用固定的词汇量进行操作,但翻译是一个开放的词汇量问题。以前的工作是通过回退到字典(去了解后进行补充) 来解决词汇外词的翻译问题。在本文中作者引入了一种更简单有效的方法,通过将稀有和未知词编码为子词单元序列,使NMT模型能够进行开放词汇翻译。本文的核心思想为:不同的词类可以通过比单词更小的单位翻译,例如名称(通过字符复制或音译),复合词(通过组合翻译),同源词和外来词(通过音系和形态转换)。原创 2020-12-24 10:49:24 · 270 阅读 · 0 评论