深度学习（Deep Learning）读书思考七：循环神经网络二（LSTM）

最新推荐文章于 2024-05-15 19:38:44 发布

下一步

最新推荐文章于 2024-05-15 19:38:44 发布

阅读量5.8k

点赞数 4

分类专栏：读书笔记深度学习 ML 文章标签：深度学习 LSTM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fangqingan_java/article/details/53019285

版权

概述

通过前一节对循环神经网络RNN的了解，简单的RNN虽然能够解决长期依赖问题，但是训练和优化比较困难，然后长短时记忆模型LSTM很大程度上解决长期依赖问题，本文主要介绍

1.LSTM的提出
2.LSTM网络结构
3.LSTM的分析

LSTM的提出

早在94年Hochreiter发现了RNN训练过程中的梯度消失和爆炸问题，然后在99年提出LSTM解决该问题。

梯度消失问题的原因可以参考之前的介绍。

常量错误传播

RNN难训练的主要原因在后向传播过程中，梯度随着时间序列的增加而逐渐消失。如果误差能够不消减的进行传递，则可以避免训练难得问题。

常量错误传播-直观想法

假设隐藏层只有一个节点j，则该节点误差计算过程为

δ j (t) = f' j (n e t j (t)) δ j (t + 1) w j j

$\delta_j(t)=f_j'(net_j(t))\delta_j(t+1)w_{jj}$ 其中

netj(t)表示该节点的网络输入,δj(t)表示节点j的误差 $net_j(t)表示该节点的网络输入,\delta_j(t)表示节点j的误差$ .
如果想做到常误差传播，则需要

f' j (n e t j (t)) w j j = 1

$f_j'(net_j(t))w_{jj}=1$
此时可以近似无限长时间序列，但是网络过于简单并且实现比较复杂。

常量错误木马(Constant Error Carousel-CEC)

LSTM也是根据CEC演化而来。

针对上面的必要条件 $f_j'(net_j(t))w_{jj}=1$ ，两边同时积分可以得到

f j (n e t j (t)) = n e t j ( t ) w j j

$f_j(net_j(t))=\frac{net_j(t)}{w_{jj}}$ 对于任意时序网络输入

netj(t) $net_j(t)$ 都要满足。
此时激活函数必须是线性并且激活值保持为常量。

y j (t + 1) = f j (n e t j (t + 1)) = f j (w j j y

最低0.47元/天解锁文章

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习（Deep Learning）读书思考七：循环神经网络二（LSTM）

概述
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。