李飞飞计算机视觉-自用笔记(第五周)

本文介绍了循环神经网络(RNN)的基本原理,包括隐藏状态和单元状态的概念,以及在处理序列数据时如何克服梯度消失问题。重点讲解了LSTM(长短期记忆网络)的工作机制,其通过遗忘门、输入门、写入门和输出门来解决传统RNN的效率问题。总结指出,RNN结构灵活,但梯度问题由LSTM有效缓解,未来研究方向在于寻找更好的序列模型。
摘要由CSDN通过智能技术生成

李飞飞计算机视觉-自用笔记(五)

10 循环神经网络

RNN:Recurrent Neural Network
输入与输出存在多种对应关系
在这里插入图片描述
核心模块:
在这里插入图片描述
用公式来表示:
在这里插入图片描述

普通的反向传播在RNN中的计算会很繁琐,所以提出了一种沿时间的截断式反向传播方法:即使输入的序列很长,在训练模型时,前向计算若干步,反向传播得出参数

LSTM:Long Short Term Memory长短期记忆网络,可缓解梯度消失和梯度爆炸的问题
在这里插入图片描述
在这里插入图片描述
h(t):隐藏状态
c(t):单元状态
f遗忘门,决定是否清除单元
i输入门,决定是否写入
g门,写入多少
o输出门,如何隐藏单元

总结
1.RNN在结构设计上非常灵活
2.Vanilla RNN很简洁,但效率不高
3.通常使用LSTM或GRU:相加性相互作用改善梯度流
4.RNN中反向传播过程可能会产生梯度爆炸或消失;爆炸由梯度clipping控制;而消失由LSTM控制
5.研究方向:更好的或更简单的模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值