Sampled Softmax 论文笔记：On Using Very Large Target Vocabulary for Neural Machine Translation

最新推荐文章于 2023-01-29 16:02:13 发布

学术状态抽奖器

最新推荐文章于 2023-01-29 16:02:13 发布

阅读量7.5k

点赞数 1

分类专栏：论文笔记文章标签：神经网络 Softmax NMT

本文链接：https://blog.csdn.net/MebiuW/article/details/68952814

版权

本文探讨了神经机器翻译（NMT）中遇到的大规模词汇表问题，导致训练复杂度和解码效率降低。为解决此问题，文章提出了Sampled Softmax方法，允许NMT系统使用超大词表。通过采样子集近似计算概率，降低了训练时的计算复杂度和空间开销，同时在WMT14上进行了实验验证。

摘要由CSDN通过智能技术生成

前言

记录下Sampled Softmax的一些原理，相当于论文
《 On Using Very Large Target Vocabulary for Neural Machine Translation 》的个人读书笔记，语句很不通顺，仅用作个人记录，若是有人有问题再讨论吧

1 问题

NMT（神经网络系统现在已经得到了极大的发展，但是NMT系统一直存在一个问题，就是如何去应对词表过大的问题。词表过大导致了训练复杂度的提升，以及解码的效率。
为了解决这个问题，这篇文章提出了一种方法去允许NMT系统能够使用超大的词表。

2 介绍

首先介绍了NMT的历史和优点。
在NMT或者相关的系统当中，一般情况下，他的词典构造方法是选择排序最靠前的K个词（Bahdanau K=3000，80000 Sutskever），超过这个数额的词，就通过UNK的形式去表现。同时根据文献，发现如果一个句子当中的UNK数量过多，会造成性能的极具下降.
在本文中，为了解决这个问题，提出了一种近似求解的算法，使得NMT系统可以使用一个较大的词表。并且在WMT14评测上进行了对比试验。

3 .1 NMT模型经典模型

接下来，就首先简单的介绍下NMT系统的一些基本构架，然后再指出其存在的问题。现在比较流行的NMT系统都是基于Encoder-Decoder架构的，简单来说，就是输入一个源语言的句子，然后Encoder将其编码到一个中间的隐状态h，然后Decoder根据再生成最终的翻译。整个Encoder-Decoder模型在训练时，是根据其机器生成的句子和对照句子最大化其条件对数概率。
这里写图片描述