LSTM神经元中参数个数

最新推荐文章于 2023-01-11 09:50:51 发布

阅读量7.1k

点赞数 5

分类专栏：深度学习

深度学习专栏收录该内容

37 篇文章

订阅专栏

转载资料：https://www.cnblogs.com/wushaogui/p/9176617.html

LSTM的神经元个数

1. LSTM简单介绍

在这里插入图片描述
上图中间位置就是一个LSTM cell，红框框从左到右，依次是：
忘记门层： 决定从细胞状态中丢弃什么信息，通过当前时刻输入( $x_{t}$ )和前一个时刻输出( $h_{t-1}$ )决定。
细胞状态： 确定并更新新消息到当前时刻的细胞状态中。
输出门层： 基于目前的细胞状态决定该时刻的输出。

2. 简单假设样例

假设现有一个样本，Shape = (13,5)，时间步是13，每个时间步的特征长度是5【我的理解就是现在有13条数据，每条数据用5个字符表示】，如下所示：
$\begin{matrix} a^1_1 & a^2_1 & ... &a^5_1 \\ a^1_2 & a^2_2 & ... &a^5_2 \\ ... & ... & ....& ....& \\ a^1_{13} & a^2_{13} & ... &a^5_{13} \\ \end{matrix} \tag{1}$
使用Keras框架添加LSTM层时，我的设置是这样的keras.layers.LSTM(10)，也就是我现在设定，每个时间步经过LSTM后，得到的中间隐向量是10维（意思就是5->10维），13个时间步的数据进去得到的是(13*10)的数据。
每个时间步对应神经元个数（参数个数）一样，也就是算一个LSTM中神经元个数，算一个事件步中参与的神经元个数即可，下面将对LSTM每个计算部分进行神经元分析。

3.神经元分析

3.1 忘记门层

图中公式的 $h_{t-1}$ 是上一个状态的隐向量（已设定隐向量长度为10）， $x_t$ 为当前状态的输入（长度为5），那么 $h_{t-1},x_t]$ 的长度就是10+5=15了， $W_f$ 和 $b_f$ 为该层的参数。
该层输出是中间隐向量的长度(10)，经过 $\sigma$ 激活前后的长度不变，只需要考虑 $\sigma$ 里面的操作得到10维特征即可。
$h_{t-1},x_t]$ 是(1,15)的向量，与 $W_f$ 相乘得到(1,10)的向量，根据矩阵相乘规律，得到 $W_f$ 是(15,10)的矩阵，得到(1,10)矩阵后，与该门层偏置相加，偏置也应该有相同的形状，即 $b_f$ 也是(1,10)的矩阵。
即该层参数个数为：
$Neurons_1=15×10+10×1=160$

3.2 细胞状态

（1）确定更新信息过程
在这里插入图片描述
可以看到，这里公式和前面的一样， $\sigma$ 和 $t a n h$ 都是激活函数，不影响参数个数。
同理这个过程的参数个数为：
$Neurons_2=2×（15×10+10×1）=320$
（2）更新过程

公式中的四个值，均是前面计算得到的结果，因此该过程没有参数需要学习。

3.3 输出层

一样的公式，参数个数一样，即：
$Neurons_3=15×10+10×1=160$

3.4 总结

把上面公式总结起来，就是该LSTM的神经元个数了：
$Neurons_{all}=Neurons_1+Neurons_2+Neurons_3=160+320+160=640$
一般化：假设你一个样本的特征长度为n，结果该LSTM得到的长度为m，就可以这样计算参数个数：
$Neurons_{all} = 4×((n+m)×m+m)$