循环序列模型 —— 1.7 对新序列采样

最新推荐文章于 2022-12-31 07:24:05 发布

然后就去远行吧

最新推荐文章于 2022-12-31 07:24:05 发布

阅读量244

点赞数

分类专栏：循环神经网络

本文链接：https://blog.csdn.net/qq_37388085/article/details/103429550

版权

循环神经网络专栏收录该内容

17 篇文章 1 订阅

订阅专栏

在你训练一个序列模型之后，要想了解这个模型学到了什么，一种非正式的方法就是进行一次新序列采样，来看看到底应该怎么做。
在这里插入图片描述
记住，一个序列模型模拟了任意特定单词序列的概率，我们要做的就是对这个概率分布进行采样来生成一个新的单词序列。这个网络已经被训练过了，而为了进行采样，你要做一些截然不同的事情，第一步要做的就是对你想要模型生成的第一个词进行采样，于是你输入 $x^{<1>}=0$ ， $a^{<0>}=0$ ，现在你的第一个时间步得到的是所有可能的输出是经过softmax层后得到的概率，然后根据这个softmax的分布进行随机采样。softmax分布给你的信息就是第一个词是a的概率是多少，第一个是aaron的概率是多少，第一个词是zulu的概率是多少，第一个词是未知标识的概率是多少，这个标识可能代表句子结尾的概率是多少，然后对这个向量使用例如numpy命令，np.random.choice，来根据向量中这些概率的分布进行采样，这样就能对第一个词进行采样了。

然后继续下一个时间步，记住第二个时间步需要 $\hat{y}^{<1>}$ 作为输入，而现在要做的是把刚刚采样得到的 $\hat{y}^{<1>}$ 作为下一个时间步的输入，所以不管你在第一个时间步得到的是什么词都要把它传递到下一个位置作为输入，然后softmax层会预测 $\hat{y}^{<2>}$ 是什么。举个例子，假如说对第一个词进行抽样后得到的是the，the作为第一个词的情况很常见，然后把the作为 $x^{<2>}$ ，现在你要计算出在第一个词是the的情况下第二个词应该是什么，然后得到结果 $\hat{y}^{<2>}$ ，然后再次用这个采样函数来对 $\hat{y}^{<2>}$ 进行采样，然后再到下一个时间步，无论你得到什么样的，用one-hot码表示的选择结果，都把它传递到下一个时间步，然后对第三个词进行采样，不管得到什么都把它传递下去，一直到最后一个时间步，那你要怎么知道一个句子结束了呢？方法之一就是如果代表句子结尾的标识在你的字典中，你可以一直进行采样，直到得到EOS标识，这代表你已经抵达结尾，可以停止采样了。另一种情况是如果字典中没有这个词，你可以决定从20个或100个或其它个词中进行采样，然后一直采样，直到达到所设定的时间步，不过这种过程有时候会产生一些未知标识。如果你要确保你的算法不会输出这种标识，你能做的一件事就是拒绝采样过程中产生任何未知的标识，一旦出现就继续在剩下的词中进行重采样，直到得到一个不是未知标识的词，你也可以完全不管它们，如果你不介意有未知标识产生的话。这就是你如何从你的RNN语言模型中生成一个随机选择的句子。直到现在我们所建立的是基于词汇的RNN模型，意思就是字典中的词都是英语单词。根据你实际的应用，你还可以构建一个基于字符的RNN结构，在这种情况下，你的字典仅包含从a到z的字母，可能还会有空格符，如果你需要的话还可以有数字0到9，如果你想区分字母大小写，你可以再加上大写的字母，你还可以实际地看一看训练集中可能会出现的字符，然后用这些字符组成你的字典。如果你建立一个基于字符的语言模型，比起基于词汇的语言模型，你的序列 ${y}^{<1>}$ ， ${y}^{<2>}$ ， ${y}^{<3>}$ 等在训练数据中都将是单独的字符而不是单独的词汇。所以对于前面的猫睡觉的例子来说，在该例中 ${y}^{<1>}$ 就是c， ${y}^{<2>}$ 是a等等，使用基于字符的语言模型，又优点也有缺点，优点就是你不必担心会出现未知的标识，例如基于字符的语言模型会将mau这样的序列也视为可能性非零的序列，而对于基于词汇的语言模型，如果mau不在字典中，你只能把它当做是未知标识，不过基于字符的语言模型一个主要的缺点就是你最后会得到太多太长的序列，大多数英语句子只有10到20个单词，但却可能包含很多很多字符。所以基于字符的语言模型在捕捉句子中的依赖关系也就是句子较前部分如何影响较后部分不如基于词汇的语言模型那样可以捕捉长范围的关系，并且基于字符的语言模型训练起来计算成本比较高昂。所以吴恩达先生看到的自然语言处理的趋势就是绝大多数都是使用基于词汇的语言模型，但随着计算机性能越来越高，会有更多的应用。在一些特殊情况下，会开始使用基于字符的模型，但是这确实需要更昂贵的算力来训练，所以现在并没有得到广泛的使用。