在前面几节我们学习的都是单向的 RNN,单向的结构有个局限,就是在当前时间点上只能利用过去的信息,而无法利用未来的序列信息的,这会影响一些需要上下文背景的任务效果。
例如命名实体识别中,有些名字在某些语境中也许代表的是玩具的名字,如果不考虑下文,很可能就被识别为人名;或者在手写识别中,知道当前位置的前面和后面是什么样子的,可以更好地判断这是什么字,提高预测准确率;又或者想要预测序列中的缺失值,就不仅要考虑它前面的词,还要考虑后面的词是什么;此外还可以用于语音识别、机器翻译、蛋白质结构预测、词性标注、依赖解析等任务中。
为了对单向结构的这个局限做出改进,于是就有了双向 RNN。
什么是双向 RNN
如上图所示,Bidirectional Recurrent Neural Networks——双向 RNN 就是把两个普通的单向 RNN 叠加在一起,输入序列以正向的时间顺序输入进其中一个网络,再以反向的时间顺序输入进另一个网络,这样就分别从两个方向计算序列的 output 和 state,然后将两个网络的激活值连接起来计算最终的输出值 y,有时也可以用求和的方式,这样在每个时间点,既可以利用之前的序列信息,也可以利用之后的序列信息。
下面我们来举个例子更具体地看一下这个模型: