循环独立LSTMs

最新推荐文章于 2024-03-31 09:00:00 发布

a609640147

最新推荐文章于 2024-03-31 09:00:00 发布

阅读量744

点赞数

文章标签：人工智能论文

本文链接：https://blog.csdn.net/a609640147/article/details/90753084

版权

本文受到IndRNN的启发，在此基础上提出了一种更加通用的新的LSTM：IndyLSTMs。与传统LSTM相比循环权重不再是全矩阵而是对角矩阵；在IndyLSTM的每一层中，参数数量与节点个数呈现线性关系而传统的LSTM则为二次，此特性使模型更小更快。与传统的LSTM相比，尽管IndyLSTMs的尺寸较小，但在每个参数的精确度和总体精度方面，它始终优于常规LSTMs。作者将这种性能的改进归功于IndyLSTMs不太容易过度拟合。在速度方面，作者使用IAM-OnDB数据集训练的模型进行对比，结果为使用IndyLSTMs的模型的预测速度平均大约要快20%。

论文地址:
https://arxiv.org/abs/1903.08023

引言

当手写体识别系统运行在用户个人终端时，内存消耗与计算资源占用将会一个重要的影响因素。由于IndyLSTM易训练及不易过拟合的特性，其模型不仅小而快，并且可以获取更好是识别效果。

IndyLSTMs

原始的LSTM

$f_t=\sigma(W_f[h_{t-1},x_t]+b_f)$
$i_t=\sigma(W_i[h_{t-1},x_t]+b_i)$
$\hat{C_t}=tanh(W_C[h_{t-1},x_t]+b_C)$
$C_t=f_t*C_{t-1}+i_t*\hat{C_t}$
$o_t=\sigma(W_o[h_{t-1},x_t]+b_o)$
$h_t=o_t*tanh(C_t)$

更新的LSTM单元

首先将LSTM单元更新为如下所示：

其中 $c_t$ 为细胞状态， $f_t、i_t、o_t$ 分别为遗忘门、输入门、输出门， $h_t$ 为隐藏状态。
输入维度为 $n$ ，隐藏层为 $m$ ，矩阵 $W_{[f|i|o|c]]}$ 尺寸为 $\times n$ ，矩阵 $U_{[f|i|o|c]}$ 的尺寸为 $\times m$ ，偏置 $b_{[f|i|o|c]}$ 的维度为 $m$ 。

输出/隐藏状态的每个元素的取决于输入向量 $x_t$ 的所有元素，以及 $o_{t-1}、h_{t-1}$ 的所有元素。

IndyLStm

现在将式(3)重写为：

使用 $u_{[f|i|o|c]} \odot h_{t-1}$ 代替 $U_{[f|i|o|c]}h_{t-1}$ 即用element-wise乘法代替matrix-vector乘法， $u_{[f|i|o|c]}$ 的维度为 $m$ 。
输出/隐藏状态的每个元素取决于输入向量 $x_t$ 的所有元素,以及 $h_{t-1}$ 和 $c_{t-1}$ 相应位置的元素。
公式(4)即为IndyLSTM。

参数数量对比

假设输入为 $n$ 维向量，输出为 $m$ 维向量，LSTM的参数个数为 $4mn+4m^2+4m=4m(n+m+1)$ ，分别表示 $W_{[f|i|o|c]]}$ 、 $U_{[f|i|o|c]}$ 和 $b_{[f|i|o|c]}$ 的尺寸；而IndyLSTM的参数个数为 $4 m n + 4 m + 4 m = 4 m (n + 2)$ ，分别表示 $W_{[f|i|o|c]]}$ 、 $u_{[f|i|o|c]}$ 和 $b_{[f|i|o|c]}$ 的尺寸。理论上，IndyLSTM的每一步的计算成本大约是LSTM的 $\frac{n}{n+m}$ 。