符号定义和解释
首先说明这里的推导采用的符号如下图所示:其中:
- 是第 t 个时刻的输入
- 是第 t 个时刻隐藏层的状态
- 是第 t 个时刻的输出,比如如果我们想要预测下一个词是什么,那么可以认为
- 计算方式为 ,其中的函数 f 代表一个非线性函数,比如 tanh 或者 ReLU
- 第 1 个时刻对应的输入 通常初始化为零向量
- 是循环神经网络的参数,所有时刻共享,这在很大程度上减少了参数数量
如何理解
是隐藏层的状态,可以把 看成循环神经网络的记忆,通过 可以知道在之前所有时刻都发生了什么,但是实际情况通常是通过 并不能知道