吴恩达深度学习课程笔记Lesson14(上)

第五门课 序列模型(Sequence Models)(上)

第一周 循环序列模型(Recurrent Neural Networks)

1.1 为什么选择序列模型?(Why Sequence Models?)

在本课程中你将学会序列模型,它是深度学习中最令人激动的内容之一。循环神经网络(RNN)之类的模型在语音识别、自然语言处理和其他领域中引起变革。在本节课中,你将学会如何自行创建这些模型。我们先看一些例子,这些例子都有效使用了序列模型。

在这里插入图片描述

在进行语音识别时,给定了一个输入音频片段 X X X,并要求输出对应的文字记录 Y Y Y。这个例子里输入和输出数据都是序列模型,因为 X X X是一个按时播放的音频片段,输出 Y Y Y是一系列单词。所以之后将要学到的一些序列模型,如循环神经网络等等在语音识别方面是非常有用的。

音乐生成问题是使用序列数据的另一个例子,在这个例子中,只有输出数据 Y Y Y是序列,而输入数据可以是空集,也可以是个单一的整数,这个数可能指代你想要生成的音乐风格,也可能是你想要生成的那首曲子的头几个音符。输入的 X X X可以是空的,或者就是个数字,然后输出序列 Y Y Y

在处理情感分类时,输入数据 X X X是序列,你会得到类似这样的输入:“There is nothing to like in this movie.”,你认为这句评论对应几星?

系列模型在DNA序列分析中也十分有用,你的DNA可以用ACGT四个字母来表示。所以给定一段DNA序列,你能够标记出哪部分是匹配某种蛋白质的吗?

在机器翻译过程中,你会得到这样的输入句:“Voulez-vou chante avecmoi?”(法语:要和我一起唱么?),然后要求你输出另一种语言的翻译结果。

在进行视频行为识别时,你可能会得到一系列视频帧,然后要求你识别其中的行为。

在进行命名实体识别时,可能会给定一个句子要你识别出句中的人名。

所以这些问题都可以被称作使用标签数据 ( X , Y ) (X,Y) (X,Y)作为训练集的监督学习。但从这一系列例子中你可以看出序列问题有很多不同类型。有些问题里,输入数据 X X X和输出数据 Y Y Y都是序列,但就算在那种情况下, X X X Y Y Y有时也会不一样长。或者像上图编号1所示和上图编号2的 X X X Y Y Y有相同的数据长度。在另一些问题里,只有 X X X或者只有 Y Y Y是序列。

所以在本节我们学到适用于不同情况的序列模型。

下节中我们会定义一些定义序列问题要用到的符号。

1.2 数学符号(Notation)

本节先从定义符号开始一步步构建序列模型。

比如说你想要建立一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于J.K.Rowling笔下的系列小说Harry Potter)。假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题,这常用于搜索引擎,比如说索引过去24小时内所有新闻报道提及的人名,用这种方式就能够恰当地进行索引。命名实体识别系统可以用来查找不同类型的文本中的人名、公司名、时间、地点、国家名和货币名等等。

在这里插入图片描述

现在给定这样的输入数据 x x x,假如你想要一个序列模型输出 y y y,使得输入的每个单词都对应一个输出值,同时这个 y y y能够表明输入的单词是否是人名的一部分。技术上来说这也许不是最好的输出形式,还有更加复杂的输出形式,它不仅能够表明输入词是否是人名的一部分,它还能够告诉你这个人名在这个句子里从哪里开始到哪里结束。比如Harry Potter(上图编号1所示)、Hermione Granger(上图标号2所示)。

更简单的那种输出形式:

这个输入数据是9个单词组成的序列,所以最终我们会有9个特征集和来表示这9个单词,并按序列中的位置进行索引, x < 1 > x^{<1>} x<1> x < 2 > x^{<2>} x<2> x < 3 > x^{<3>} x<3>等等一直到 x < 9 > x^{<9>} x<9>来索引不同的位置,我将用 x < t > x^{<t>} x<t>来索引这个序列的中间位置。 t t t意味着它们是时序序列,但不论是否是时序序列,我们都将用 t t t来索引序列中的位置。

输出数据也是一样,我们还是用 y < 1 > y^{<1>} y<1> y < 2 > y^{<2>} y<2> y < 3 > y^{<3>} y<3>等等一直到 y < 9 > y^{<9>} y<9>来表示输出数据。同时我们用 T x T_{x} Tx来表示输入序列的长度,这个例子中输入是9个单词,所以 T x = 9 T_{x}= 9 Tx=9。我们用 T y T_{y} Ty来表示输出序列的长度。在这个例子里 T x = T y T_{x} =T_{y} Tx=Ty,上个视频里你知道 T x T_{x} Tx T y T_{y} Ty可以有不同的值。

你应该记得我们之前用的符号,我们用 x ( i ) x^{(i)} x(i)来表示第 i i i个训练样本,所以为了指代第 t t t个元素,或者说是训练样本i的序列中第 t t t个元素用 x ( i ) < t > x^{\left(i \right) <t>} x(i)<t>这个符号来表示。如果 T x T_{x} Tx是序列长度,那么你的训练集里不同的训练样本就会有不同的长度,所以 T x ( i ) T_{x}^{(i)} Tx(i)就代表第 i i i个训练样本的输入序列长度。同样 y ( i ) < t > y^{\left( i \right) < t>} y(i)<t>代表第 i i i个训练样本中第 t t t个元素, T y ( i ) T_{y}^{(i)} Ty(i)就是第 i i i个训练样本的输出序列的长度。

所以在这个例子中, T x ( i ) = 9 T_{x}^{(i)}=9 Tx(i)=9,但如果另一个样本是由15个单词组成的句子,那么对于这个训练样本, T x ( i ) = 15 T_{x}^{(i)}=15 Tx(i)=15

既然我们这个例子是NLP,也就是自然语言处理,这是我们初次涉足自然语言处理,一件我们需要事先决定的事是怎样表示一个序列里单独的单词,你会怎样表示像Harry这样的单词, x < 1 > x^{<1>} x<1>实际应该是什么?

接下来我们讨论一下怎样表示一个句子里单个的词。想要表示一个句子里的单词,第一件事是做一张词表,有时也称为词典,意思是列一列你的表示方法中用到的单词。这个词表(下图所示)中的第一个词是a,也就是说词典中的第一个单词是a,第二个单词是Aaron,然后更下面一些是单词and,再后面你会找到Harry,然后找到Potter,这样一直到最后,词典里最后一个单词可能是Zulu

在这里插入图片描述

因此a是第一个单词,Aaron是第二个单词,在这个词典里,and出现在367这个位置上,Harry是在4075这个位置,Potter在6830,词典里的最后一个单词Zulu可能是第10,000个单词。所以在这个例子中我用了10,000个单词大小的词典,这对现代自然语言处理应用来说太小了。对于商业应用来说,或者对于一般规模的商业应用来说30,000到50,000词大小的词典比较常见,但是100,000词的也不是没有,而且有些大型互联网公司会用百万词,甚至更大的词典。许多商业应用用的词典可能是30,000词,也可能是50,000词。不过我将用10,000词大小的词典做说明,因为这是一个很好用的整数。

如果你选定了10,000词的词典,构建这个词典的一个方法是遍历你的训练集,并且找到前10,000个常用词,你也可以去浏览一些网络词典,它能告诉你英语里最常用的10,000个单词,接下来你可以用one-hot表示法来表示词典里的每个单词。

在这里插入图片描述

举个例子,在这里 x < 1 > x^{<1>} x<1>表示Harry这个单词,它就是一个第4075行是1,其余值都是0的向量(上图编号1所示),因为那是Harry在这个词典里的位置。

同样 x < 2 > x^{<2>} x<2>是个第6830行是1,其余位置都是0的向量(上图编号2所示)。

and在词典里排第367,所以 x < 3 > x^{<3>} x<3>就是第367行是1,其余值都是0的向量(上图编号3所示)。如果你的词典大小是10,000的话,那么这里的每个向量都是10,000维的。

因为a是字典第一个单词, x < 7 > x^{<7>} x<7>对应a,那么这个向量的第一个位置为1,其余位置都是0的向量(上图编号4所示)。

所以这种表示方法中, x < t > x^{<t>} x<t>指代句子里的任意词,它就是个one-hot向量,因为它只有一个值是1,其余值都是0,所以你会有9个one-hot向量来表示这个句中的9个单词,目的是用这样的表示方式表示 X X X,用序列模型在 X X X和目标输出 Y Y Y之间学习建立一个映射。我会把它当作监督学习的问题,我确信会给定带有 ( x , y ) (x,y) (xy)标签的数据。

那么还剩下最后一件事,我们将在之后的视频讨论,如果你遇到了一个不在你词表中的单词,答案就是创建一个新的标记,也就是一个叫做Unknow Word的伪造单词,用<UNK>作为标记,来表示不在词表中的单词,我们之后会讨论更多有关这个的内容。

总结一下本节课的内容,我们描述了一套符号用来表述你的训练集里的序列数据 x x x y y y,在下节课我们开始讲述循环神经网络中如何构建 X X X Y Y Y的映射。

1.3 循环神经网络模型(Recurrent Neural Network Model)

上节视频中,你了解了我们用来定义序列学习问题的符号。现在我们讨论一下怎样才能建立一个模型,建立一个神经网络来学习 X X X Y Y Y的映射。

可以尝试的方法之一是使用标准神经网络,在我们之前的例子中,我们有9个输入单词。想象一下,把这9个输入单词,可能是9个one-hot向量,然后将它们输入到一个标准神经网络中,经过一些隐藏层,最终会输出9个值为0或1的项,它表明每个输入单词是否是人名的一部分。

在这里插入图片描述

但结果表明这个方法并不好,主要有两个问题,

一、是输入和输出数据在不同例子中可以有不同的长度,不是所有的例子都有着同样输入长度 T x T_{x} Tx或是同样输出长度的 T y T_{y} Ty。即使每个句子都有最大长度,也许你能够填充(pad)或零填充(zero pad)使每个输入语句都达到最大长度,但仍然看起来不是一个好的表达方式。

二、一个像这样单纯的神经网络结构,它并不共享从文本的不同位置上学到的特征。具体来说,如果神经网络已经学习到了在位置1出现的Harry可能是人名的一部分,那么如果Harry出现在其他位置,比如 x < t > x^{<t>} x<t>时,它也能够自动识别其为人名的一部分的话,这就很棒了。这可能类似于你在卷积神经网络中看到的,你希望将部分图片里学到的内容快速推广到图片的其他部分,而我们希望对序列数据也有相似的效果。和你在卷积网络中学到的类似,用一个更好的表达方式也能够让你减少模型中参数的数量。

之前我们提到过这些(上图编号1所示的 x < 1 > x^{<1>} x<1>…… x < t > x^{<t>} x<t>…… x < T x > x^{< T_{x}>} x<Tx>)都是10,000维的one-hot向量,因此这会是十分庞大的输入层。如果总的输入大小是最大单词数乘以10,000,那么第一层的权重矩阵就会有着巨量的参数。但循环神经网络就没有上述的两个问题。

那么什么是循环神经网络呢?我们先建立一个(下图编号1所示)。如果你以从左到右的顺序读这个句子,第一个单词就是,假如说是 x < 1 > x^{<1>} x<1>,我们要做的就是将第一个词输入一个神经网络层,我打算这样画,第一个神经网络的隐藏层,我们可以让神经网络尝试预测输出,判断这是否是人名的一部分。循环神经网络做的是,当它读到句中的第二个单词时,假设是 x < 2 > x^{<2>} x<2>,它不是仅用 x < 2 > x^{<2>} x<2>就预测出 y ^ < 2 > {\hat{y}}^{<2>} y^<2>,他也会输入一些来自时间步1的信息。具体而言,时间步1的激活值就会传递到时间步2。然后,在下一个时间步,循环神经网络输入了单词 x < 3 > x^{<3>} x<3>,然后它尝试预测输出了预测结果 y ^ < 3 > {\hat{y}}^{<3>} y^<3>,等等,一直到最后一个时间步,输入了 x < T x > x^{<T_{x}>} x<Tx>,然后输出了 y ^ < T y > {\hat{y}}^{< T_{y} >} y^<Ty>。至少在这个例子中 T x = T y T_{x} =T_{y} Tx=Ty,同时如果 T x T_{x} Tx T y T_{y} Ty不相同,这个结构会需要作出一些改变。所以在每一个时间步中,循环神经网络传递一个激活值到下一个时间步中用于计算。

在这里插入图片描述

要开始整个流程,在零时刻需要构造一个激活值 a < 0 > a^{<0>} a<0>,这通常是零向量。有些研究人员会随机用其他方法初始化 a < 0 > a^{<0>} a<0>,不过使用零向量作为零时刻的伪激活值是最常见的选择,因此我们把它输入神经网络。

在一些研究论文中或是一些书中你会看到这类神经网络,用这样的图形来表示(上图编号2所示),在每一个时间步中,你输入 x < t > x^{<t>} x<t>然后输出 y < t > y^{<t>} y<t>。然后为了表示循环连接有时人们会像这样画个圈,表示输回网络层,有时他们会画一个黑色方块,来表示在这个黑色方块处会延迟一个时间步。我个人认为这些循环图很难理解,所以在本次课程中,我画图更倾向于使用左边这种分布画法(上图编号1所示)。不过如果你在教材中或是研究论文中看到了右边这种图表的画法(上图编号2所示),它可以在心中将这图展开成左图那样。

循环神经网络是从左向右扫描数据,同时每个时间步的参数也是共享的,所以下页幻灯片中我们会详细讲述它的一套参数,我们用 W ax W_{\text{ax}} Wax来表示管理着从 x < 1 > x^{<1>} x<1>到隐藏层的连接的一系列参数,每个时间步使用的都是相同的参数 W ax W_{\text{ax}} Wax。而激活值也就是水平联系是由参数 W a a W_{aa} Waa决定的,同时每一个时间步都使用相同的参数 W a a W_{aa} Waa,同样的输出结果由 W ya W_{\text{ya}} Wya决定。下图详细讲述这些参数是如何起作用。

在这里插入图片描述

在这个循环神经网络中,它的意思是在预测 y ^ < 3 > {\hat{y}}^{< 3 >} y^<3>时,不仅要使用 x < 3 > x^{<3>} x<3>的信息,还要使用来自 x < 1 > x^{<1>} x<1> x < 2 > x^{<2>} x<2>的信息,因为来自 x < 1 > x^{<1>} x<1>的信息可以通过这样的路径(上图编号1所示的路径)来帮助预测 y ^ < 3 > {\hat{y}}^{<3>} y^<3>。这个循环神经网络的一个缺点就是它只使用了这个序列中之前的信息来做出预测,尤其当预测 y ^ < 3 > {\hat{y}}^{<3>} y^<3>时,它没有用到 x < 4 > x^{<4>} x<4> x < 5 > x^{<5>} x<5> x < 6 > x^{<6>} x<6>等等的信息。所以这就有一个问题,因为如果给定了这个句子,“Teddy Roosevelt was a great President.”,为了判断Teddy是否是人名的一部分,仅仅知道句中前两个词是完全不够的,还需要知道句中后部分的信息,这也是十分有用的,因为句子也可能是这样的,“Teddy bears are on sale!”。因此如果只给定前三个单词,是不可能确切地知道Teddy是否是人名的一部分,第一个例子是人名,第二个例子就不是,所以你不可能只看前三个单词就能分辨出其中的区别。

所以这样特定的神经网络结构的一个限制是它在某一时刻的预测仅使用了从序列之前的输入信息并没有使用序列中后部分的信息,我们会在之后的双向循环神经网络(BRNN)的视频中处理这个问题。但对于现在,这个更简单的单向神经网络结构就够我们来解释关键概念了,之后只要在此基础上作出修改就能同时使用序列中前面和后面的信息来预测 y ^ < 3 > {\hat{y}}^{<3>} y^<3>,不过我们会在之后的视频讲述这些内容,接下来我们具体地写出这个神经网络计算了些什么。

在这里插入图片描述

这里是一张清理后的神经网络示意图,和我之前提及的一样,一般开始先输入 a < 0 > a^{<0>} a<0>,它是一个零向量。接着就是前向传播过程,先计算激活值 a < 1 > a^{<1>} a<1>,然后再计算 y < 1 > y^{<1>} y<1>

a < 1 > = g 1 ( W a a a < 0 > + W a x x < 1 > + b a ) a^{<1>} = g_{1}(W_{{aa}}a^{< 0 >} + W_{{ax}}x^{< 1 >} + b_{a}) a<1>=g1(Waaa<0>+Waxx<1>+ba)

y ^ < 1 > = g 2 ( W y a a < 1 > + b y ) \hat y^{< 1 >} = g_{2}(W_{{ya}}a^{< 1 >} + b_{y}) y^<1>=g2(Wyaa<1>+by)

我将用这样的符号约定来表示这些矩阵下标,举个例子 W ax W_{\text{ax}} Wax,第二个下标意味着 W ax W_{\text{ax}} Wax要乘以某个 x x x类型的量,然后第一个下标 a a a表示它是用来计算某个 a a a类型的变量。同样的,可以看出这里的 W ya W_{\text{ya}} Wya乘上了某个 a a a类型的量,用来计算出某个 y ^ \hat {y} y^类型的量。

循环神经网络用的激活函数经常是tanh,不过有时候也会用ReLU,但是tanh是更通常的选择,我们有其他方法来避免梯度消失问题,我们将在之后进行讲述。选用哪个激活函数是取决于你的输出 y y y,如果它是一个二分问题,那么我猜你会用sigmoid函数作为激活函数,如果是 k k k类别分类问题的话,那么可以选用softmax作为激活函数。不过这里激活函数的类型取决于你有什么样类型的输出 y y y,对于命名实体识别来说 y y y只可能是0或者1,那我猜这里第二个激活函数 g g g可以是sigmoid激活函数。

更一般的情况下,在 t t t时刻,

a < t > = g 1 ( W a a a < t − 1 > + W a x x < t > + b a ) a^{< t >} = g_{1}(W_{aa}a^{< t - 1 >} + W_{ax}x^{< t >} + b_{a}) a<t>=g1(Waaa<t1>+Waxx<t>+ba)

y ^ < t > = g 2 ( W y a a < t > + b y ) \hat y^{< t >} = g_{2}(W_{{ya}}a^{< t >} + b_{y}) y^<t>=g2(Wyaa<t>+by)

所以这些等式定义了神经网络的前向传播,你可以从零向量 a < 0 > a^{<0>} a<0>开始,然后用 a < 0 > a^{<0>} a<0> x < 1 > x^{<1>} x<1>来计算出 a < 1 > a^{<1>} a<1> y ^ < 1 > \hat y^{<1>} y^<1>,然后用 x < 2 > x^{<2>} x<2> a < 1 > a^{<1>} a<1>一起算出 a < 2 > a^{<2>} a<2> y ^ < 2 > \hat y^{<2>} y^<2>等等,像图中这样,从左到右完成前向传播。

现在为了帮我们建立更复杂的神经网络,我实际要将这个符号简化一下,我在下一张幻灯片里复制了这两个等式(上图编号1所示的两个等式)。

在这里插入图片描述

接下来为了简化这些符号,我要将这部分( W aa a < t − 1 > + W ax x < t > W_{\text{aa}}a^{<t -1>} +W_{\text{ax}}x^{<t>} Waaa<t1>+Waxx<t>)(上图编号1所示)以更简单的形式写出来,我把它写做 a < t > = g ( W a [ a < t − 1 > , x < t > ] + b a ) a^{<t>} =g(W_{a}\left\lbrack a^{< t-1 >},x^{<t>} \right\rbrack +b_{a}) a<t>=g(Wa[a<t1>,x<t>]+ba)(上图编号2所示),那么左右两边划线部分应该是等价的。所以我们定义 W a W_{a} Wa的方式是将矩阵 W a a W_{aa} Waa和矩阵 W a x W_{{ax}} Wax水平并列放置, [ W a a ⋮ W a x ] = W a [ {{W}_{aa}}\vdots {{W}_{ax}}]=W_{a} [WaaWax]=Wa(上图编号3所示)。举个例子,如果 a a a是100维的,然后延续之前的例子, x x x是10,000维的,那么 W a a W_{aa} Waa就是个 ( 100 , 100 ) (100,100) 100100维的矩阵, W a x W_{ax} Wax就是个 ( 100 , 10 , 000 ) (100,10,000) 10010,000维的矩阵,因此如果将这两个矩阵堆起来, W a W_{a} Wa就会是个 ( 100 , 10 , 100 ) (100,10,100) 10010,100维的矩阵。

用这个符号( [ a < t − 1 > , x < t > ] \left\lbrack a^{< t - 1 >},x^{< t >}\right\rbrack [a<t1>,x<t>])的意思是将这两个向量堆在一起,我会用这个符号表示,即 [ a < t − 1 > x < t > ] \begin{bmatrix}a^{< t-1 >} \\ x^{< t >} \\\end{bmatrix} [a<t1>x<t>](上图编号4所示),最终这就是个10,100维的向量。你可以自己检查一下,用这个矩阵乘以这个向量,刚好能够得到原来的量,因为此时,矩阵 [ W a a ⋮ W a x ] [ {{W}_{aa}}\vdots {{W}_{ax}}] [WaaWax]乘以 [ a < t − 1 > x < t > ] \begin{bmatrix} a^{< t - 1 >} \\ x^{< t >} \\ \end{bmatrix} [a<t1>x<t>],刚好等于 W a a a < t − 1 > + W a x x < t > W_{{aa}}a^{<t-1>} + W_{{ax}}x^{<t>} Waaa<t1>+Waxx<t>,刚好等于之前的这个结论(上图编号5所示)。这种记法的好处是我们可以不使用两个参数矩阵 W a a W_{{aa}} Waa W a x W_{{ax}} Wax,而是将其压缩成一个参数矩阵 W a W_{a} Wa,所以当我们建立更复杂模型时这就能够简化我们要用到的符号。

同样对于这个例子( y ^ < t > = g ( W y a a < t > + b y ) \hat y^{<t>} = g(W_{ya}a^{<t>} +b_{y}) y^<t>=g(Wyaa<t>+by)),我会用更简单的方式重写, y ^ < t > = g ( W y a < t > + b y ) \hat y^{< t >} = g(W_{y}a^{< t >} +b_{y}) y^<t>=g(Wya<t>+by)(上图编号6所示)。现在 W y W_{y} Wy b y b_{y} by符号仅有一个下标,它表示在计算时会输出什么类型的量,所以 W y W_{y} Wy就表明它是计算 y y y类型的量的权重矩阵,而上面的 W a W_{a} Wa b a b_{a} ba则表示这些参数是用来计算 a a a类型或者说是激活值的。

RNN前向传播示意图:

在这里插入图片描述

好就这么多,你现在知道了基本的循环神经网络,下节课我们会一起来讨论反向传播,以及你如何能够用RNN进行学习。

1.4 通过时间的反向传播(Backpropagation through time)

之前我们已经学过了循环神经网络的基础结构,在本节视频中我们将来了解反向传播是怎样在循环神经网络中运行的。和之前一样,当你在编程框架中实现循环神经网络时,编程框架通常会自动处理反向传播。但我认为,在循环神经网络中,对反向传播的运行有一个粗略的认识还是非常有用的,让我们来一探究竟。

在这里插入图片描述

在之前你已经见过对于前向传播(上图蓝色箭头所指方向)怎样在神经网络中从左到右地计算这些激活项,直到输出所有地预测结果。而对于反向传播,我想你已经猜到了,反向传播地计算方向(上图红色箭头所指方向)与前向传播基本上是相反的。

在这里插入图片描述

我们来分析一下前向传播的计算,现在你有一个输入序列, x < 1 > x^{<1>} x<1> x < 2 > x^{<2>} x<2> x < 3 > x^{<3>} x<3>一直到 x < T x > x^{< T_{x} >} x<Tx>,然后用 x < 1 > x^{<1>} x<1>还有 a < 0 > a^{<0>} a<0>计算出时间步1的激活项,再用 x < 2 > x^{<2>} x<2> a < 1 > a^{<1>} a<1>计算出 a < 2 > a^{<2>} a<2>,然后计算 a < 3 > a^{<3>} a<3>等等,一直到 a < T x > a^{< T_{x} >} a<Tx>

为了真正计算出 a < 1 > a^{<1>} a<1>,你还需要一些参数, W a W_{a} Wa b a b_{a} ba,用它们来计算出 a < 1 > a^{<1>} a<1>。这些参数在之后的每一个时间步都会被用到,于是继续用这些参数计算 a < 2 > a^{<2>} a<2> a < 3 > a^{<3>} a<3>等等,所有的这些激活项都要取决于参数 W a W_{a} Wa b a b_{a} ba。有了 a < 1 > a^{<1>} a<1>,神经网络就可以计算第一个预测值 y ^ < 1 > \hat y^{<1>} y^<1>,接着到下一个时间步,继续计算出 y ^ < 2 > \hat y^{<2>} y^<2> y ^ < 3 > \hat y^{<3>} y^<3>,等等,一直到 y ^ < T y > \hat y^{<T_{y}>} y^<Ty>。为了计算出 y ^ {\hat{y}} y^,需要参数 W y W_{y} Wy b y b_{y} by,它们将被用于所有这些节点。

在这里插入图片描述

然后为了计算反向传播,你还需要一个损失函数。我们先定义一个元素损失函数(上图编号1所示)

L < t > ( y ^ < t > , y < t > ) = − y < t > log ⁡ y ^ < t > − ( 1 − y < t > ) l o g ( 1 − y ^ < t > ) L^{<t>}( \hat y^{<t>},y^{<t>}) = - y^{<t>}\log\hat y^{<t>}-( 1- y^{<t>})log(1-\hat y^{<t>}) L<t>(y^<t>,y<t>)=y<t>logy^<t>(1y<t>)log(1y^<t>)

它对应的是序列中一个具体的词,如果它是某个人的名字,那么 y < t > y^{<t>} y<t>的值就是1,然后神经网络将输出这个词是名字的概率值,比如0.1。我将它定义为标准逻辑回归损失函数,也叫交叉熵损失函数(Cross Entropy Loss),它和之前我们在二分类问题中看到的公式很像。所以这是关于单个位置上或者说某个时间步 t t t上某个单词的预测值的损失函数。

现在我们来定义整个序列的损失函数,将 L L L定义为(上图编号2所示)

L ( y ^ , y ) =   ∑ t = 1 T x L < t > ( y ^ < t > , y < t > ) L(\hat y,y) = \ \sum_{t = 1}^{T_{x}}{L^{< t >}(\hat y^{< t >},y^{< t >})} L(y^,y)= t=1TxL<t>(y^<t>,y<t>)

在这个计算图中,通过 y ^ < 1 > \hat y^{<1>} y^<1>可以计算对应的损失函数,于是计算出第一个时间步的损失函数(上图编号3所示),然后计算出第二个时间步的损失函数,然后是第三个时间步,一直到最后一个时间步,最后为了计算出总体损失函数,我们要把它们都加起来,通过下面的等式(上图编号2所示的等式)计算出最后的 L L L(上图编号4所示),也就是把每个单独时间步的损失函数都加起来。

这就是完整的计算图,在之前的例子中,你已经见过反向传播,所以你应该能够想得到反向传播算法需要在相反的方向上进行计算和传递信息,最终你做的就是把前向传播的箭头都反过来,在这之后你就可以计算出所有合适的量,然后你就可以通过导数相关的参数,用梯度下降法来更新参数。

在这个反向传播的过程中,最重要的信息传递或者说最重要的递归运算就是这个从右到左的运算,这也就是为什么这个算法有一个很别致的名字,叫做**“通过(穿越)时间反向传播**(backpropagation through time)”。取这个名字的原因是对于前向传播,你需要从左到右进行计算,在这个过程中,时刻 t t t不断增加。而对于反向传播,你需要从右到左进行计算,就像时间倒流。“通过时间反向传播”,就像穿越时光,这种说法听起来就像是你需要一台时光机来实现这个算法一样。

RNN反向传播示意图:

在这里插入图片描述

希望你大致了解了前向和反向传播是如何在RNN中工作的,到目前为止,你只见到了RNN中一个主要的例子,其中输入序列的长度和输出序列的长度是一样的。在下节课将展示更多的RNN架构,这将让你能够处理一些更广泛的应用。

1.5 不同类型的循环神经网络(Different types of RNNs)

现在你已经了解了一种RNN结构,它的输入量 T x T_{x} Tx等于输出数量 T y T_{y} Ty。事实上,对于其他一些应用, T x T_{x} Tx T y T_{y} Ty并不一定相等。在这个视频里,你会看到更多的RNN的结构。

在这里插入图片描述

你应该还记得这周第一个视频中的那个幻灯片,那里有很多例子输入 x x x和输出 y y y,有各种类型,并不是所有的情况都满足 T x = T y T_{x}=T_{y} Tx=Ty

比如音乐生成这个例子, T x T_{x} Tx可以是长度为1甚至为空集。再比如电影情感分类,输出 y y y可以是1到5的整数,而输入是一个序列。在命名实体识别中,这个例子中输入长度和输出长度是一样的。

还有一些情况,输入长度和输出长度不同,他们都是序列但长度不同,比如机器翻译,一个法语句子和一个英语句子不同数量的单词却能表达同一个意思。

所以我们应该修改基本的RNN结构来处理这些问题,这个视频的内容参考了Andrej Karpathy的博客,一篇叫做《循环神经网络的非理性效果》(“The Unreasonable Effectiveness of Recurrent Neural Networks”)的文章,我们看一些例子。

你已经见过 T x = T y T_{x} = T_{y} Tx=Ty的例子了(下图编号1所示),也就是我们输入序列 x < 1 > x^{<1>} x<1> x < 2 > x^{<2>} x<2>,一直到 x < T x > x^{< T_{x}>} x<Tx>,我们的循环神经网络这样工作,输入 x < 1 > x^{<1>} x<1>来计算 y ^ < 1 > \hat y^{<1>} y^<1> y ^ < 2 > \hat y^{<2>} y^<2>等等一直到 y ^ < T y > \hat y^{<T_{y}>} y^<Ty>。在原先的图里,我会画一串圆圈表示神经元,大部分时候为了让符号更加简单,此处就以简单的小圈表示。这个就叫做“多对多”(many-to-many)的结构,因为输入序列有很多的输入,而输出序列也有很多输出。

现在我们看另外一个例子,假如说,你想处理情感分类问题(下图编号2所示),这里 x x x可能是一段文本,比如一个电影的评论,“These is nothing to like in this movie.”(“这部电影没什么还看的。”),所以 x x x就是一个序列,而 y y y可能是从1到5的一个数字,或者是0或1,这代表正面评价和负面评价,而数字1到5代表电影是1星,2星,3星,4星还是5星。所以在这个例子中,我们可以简化神经网络的结构,输入 x < 1 > x^{<1 >} x<1> x < 2 > x^{< 2 >} x<2>,一次输入一个单词,如果输入文本是“These is nothing to like in this movie”,那么单词的对应如下图编号2所示。我们不再在每个时间上都有输出了,而是让这个RNN网络读入整个句子,然后在最后一个时间上得到输出,这样输入的就是整个句子,所以这个神经网络叫做“多对一”(many-to-one)结构,因为它有很多输入,很多的单词,然后输出一个数字。

在这里插入图片描述

为了完整性,还要补充一个“一对一”(one-to-one)的结构(上图编号3所示),这个可能没有那么重要,这就是一个小型的标准的神经网络,输入 x x x然后得到输出 y y y,我们这个系列课程的前两个课程已经讨论过这种类型的神经网络了。

在这里插入图片描述

除了“多对一”的结构,也可以有“一对多”(one-to-many)的结构。对于一个“一对多”神经网络结构的例子就是音乐生成(上图编号1所示),事实上,你会在这个课后编程练习中去实现这样的模型,你的目标是使用一个神经网络输出一些音符。对应于一段音乐,输入 x x x可以是一个整数,表示你想要的音乐类型或者是你想要的音乐的第一个音符,并且如果你什么都不想输入, x x x可以是空的输入,可设为0向量。

这样这个神经网络的结构,首先是你的输入 x x x,然后得到RNN的输出,第一个值,然后就没有输入了,再得到第二个输出,接着输出第三个值等等,一直到合成这个音乐作品的最后一个音符,这里也可以写上输入 a < 0 > a^{<0>} a<0>(上图编号3所示)。有一个后面才会讲到的技术细节,当你生成序列时通常会把第一个合成的输出也喂给下一层(上图编号4所示),所以实际的网络结构最终就像这个样子。

我们已经讨论了“多对多”、“多对一”、“一对一”和“一对多”的结构,对于“多对多”的结构还有一个有趣的例子值得详细说一下,就是输入和输出长度不同的情况。你刚才看过的多对多的例子,它的输入长度和输出长度是完全一样的。而对于像机器翻译这样的应用,输入句子的单词的数量,比如说一个法语的句子,和输出句子的单词数量,比如翻译成英语,这两个句子的长度可能不同,所以还需要一个新的网络结构,一个不同的神经网络(上图编号2所示)。首先读入这个句子,读入这个输入,比如你要将法语翻译成英语,读完之后,这个网络就会输出翻译结果。有了这种结构 T x T_{x} Tx T y T_{y} Ty就可以是不同的长度了。同样,你也可以画上这个 a < 0 > a^{<0>} a<0>。这个网络的结构有两个不同的部分,这(上图编号5所示)是一个编码器,获取输入,比如法语句子,这(上图编号6所示)是解码器,它会读取整个句子,然后输出翻译成其他语言的结果。

在这里插入图片描述

这就是一个“多对多”结构的例子,到这周结束的时候,你就能对这些各种各样结构的基本构件有一个很好的理解。严格来说,还有一种结构,我们会在第四周涉及到,就是“注意力”(attention based)结构,但是根据我们现在画的这些图不好理解这个模型。

总结一下这些各种各样的RNN结构,这(上图编号1所示)是“一对一”的结构,当去掉 a < 0 > a^{<0>} a<0>时它就是一种标准类型的神经网络。还有一种“一对多”的结构(上图编号2所示),比如音乐生成或者序列生成。还有“多对一”,这(上图编号3所示)是情感分类的例子,首先读取输入,一个电影评论的文本,然后判断他们是否喜欢电影还是不喜欢。还有“多对多”的结构(上图编号4所示),命名实体识别就是“多对多”的例子,其中 T x = T y T_{x}=T_{y} Tx=Ty。最后还有一种“多对多”结构的其他版本(上图编号5所示),对于像机器翻译这样的应用, T x T_{x} Tx T y T_{y} Ty就可以不同了。

现在,你已经了解了大部分基本的模块,这些就是差不多所有的神经网络了,除了序列生成,有些细节的问题我们会在下节课讲解。

我希望你从本视频中了解到用这些RNN的基本模块,把它们组合在一起就可以构建各种各样的模型。但是正如我前面提到的,序列生成还有一些不一样的地方,在这周的练习里,你也会实现它,你需要构建一个语言模型,结果好的话会得到一些有趣的序列或者有意思的文本。下节课深入探讨序列生成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值