貌离神合的RNN与ODE：花式RNN简介

最新推荐文章于 2023-06-14 12:41:57 发布

PaperWeekly

最新推荐文章于 2023-06-14 12:41:57 发布

阅读量1.7k

点赞数 2

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/80863154

版权

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

本来笔者已经决心不玩 RNN 了，但是在上个星期思考时忽然意识到 RNN 实际上对应了 ODE（常微分方程）的数值解法，这为我一直以来想做的事情——用深度学习来解决一些纯数学问题——提供了思路。事实上这是一个颇为有趣和有用的结果，遂介绍一翻。顺便地，本文也涉及到了自己动手编写 RNN 的内容，所以本文也可以作为编写自定义的 RNN 层的一个简单教程。

注：本文并非前段时间的热点“神经 ODE [1]”的介绍（但有一定的联系）。

RNN基本

什么是RNN？

众所周知，RNN 是“循环神经网络（Recurrent Neural Network）”，跟 CNN 不同，RNN 可以说是一类模型的总称，而并非单个模型。简单来讲，只要是输入向量序列 (x1,x2,…,xT)，输出另外一个向量序列 (y1,y2,…,yT)，并且满足如下递归关系的模型，都可以称为 RNN。

640

也正因为如此，原始的朴素 RNN，还有改进的如 GRU、LSTM、SRU 等模型，我们都称为 RNN，因为它们都可以作为上式的一个特例。还有一些看上去与 RNN 没关的内容，比如前不久介绍的 CRF 的分母的计算，实际上也是一个简单的 RNN。

说白了，RNN 其实就是递归计算。

自己编写RNN

这里我们先介绍如何用 Keras 简单快捷地编写自定义的 RNN。

事实上，不管在 Keras 还是纯 tensorflow 中，要自定义自己的 RNN 都不算复杂。在 Keras 中，只要写出每一步的递归函数；而在 tensorflow 中，则稍微复杂一点，需要将每一步的递归函数封装为一个 RNNCell 类。

下面介绍用 Keras 实现最基本的一个 RNN：

640

代码非常简单：

#! -*- coding: utf-8- -*-

from keras.layers import Layer
import keras.backend as K


class My_RNN(Layer):

    def __init__(self, output_dim, **kwargs):
        self.output_dim = output_dim # 输出维度
        super(My_RNN, self).__init__(**kwargs)

    def build(self, input_shape): # 定义可训练参数
        self.kernel1 = self.add_weight(name='kernel1',
                                      shape=(self.output_dim, self.output_dim),
                                      initializer='glorot_normal',
                                      trainable=True)
        self.kernel2 = self.add_weight(name='kernel2',
                                      shape=(input_shape[-1], self.output_dim),
                                      initializer='glorot_normal',
                                      trainable=True)
        self.bias = self.add_weight(name='kernel',
                                      shape=(self.output_dim,),
                                      initializer='glorot_normal',
                                      trainable=True)

    def step_do(self, step_in, states): # 定义每一步的迭代
        step_out = K.tanh(K.dot(states[0], self.kernel1) +
                          K.dot(step_in, self.kernel2) +
                          self.bias)
        return step_out, [step_out]

    def call(self, inputs): # 定义正式执行的函数
        init_states = [K.zeros((K.shape(inputs)[0],
                                self.output_dim)
                              )] # 定义初始态(全零)
        outputs = K.rnn(self.step_do, inputs, init_states) # 循环执行step_do函数
        return outputs[0] # outputs是一个tuple，outputs[0]为最后时刻的输出，
                          # outputs[1]为整个输出的时间序列，output[2]是一个list，
                          # 是中间的隐藏状态。

    def compute_output_shape(self, input_shape):
        return (input_shape[0], self.output_dim)