3、CNN、RNN、LSTM

本文详细介绍了CNN、RNN和LSTM的工作原理及其在处理序列数据时遇到的梯度消失和爆炸问题。CNN利用卷积核整合上下文信息,RNN通过循环结构处理更长上下文,但易出现梯度问题。LSTM通过门控机制解决这一问题,有效地保留和传递信息。同时,文章提到了激活函数的选择和损失函数的影响,以及解决梯度问题的策略。
摘要由CSDN通过智能技术生成

1、CNN:就是把每个字转换成向量,再拼接成图像的样式,再用卷积核处理,再池化和拼接,再softmax得到分类结果,卷积核的作用能够整合一些上下文信息。

ç½ç»ç»æ

2、RNN:前向网络中加入了前一个字的信息,隐含层嘛;能够整合更多的上下文信息,效果更好,但是会出现梯度消失和爆炸。产生的原因是什么呢?在bp过程中(这里就不推导了),当前层参数的导数是后面所有层导数跌成的结果,主要包含激活函数的导数和权值矩阵两个方面;梯度爆炸是因为初始化权重矩阵太大,导致每一层的权重矩阵和激活函数导数的乘积都大于1,;所以初始化权重矩阵不易太大;梯度消失是因为激活函数的导数明显小于1,导致跌成之后远小于1,如sigmoid函数的导数永远小于0.25,tan函数的导数值分布也比较小,不能使用激活函数relu,因为这个还是会导致梯度爆炸。hinton的论文中说了替换成relu会导致很大的输出值,举个例子:

a(i) = Wf(i-1) +Ux(i) +b(i)   激活函数的输入,x(i)是每个阶段的输入,

f(i) = f[a(i)]  激活函数的输出

rnn中每一层的W相同,所以在求当前层的变化时,叠乘由于激活函数导数都是1,那么就是W的n次方,如果把W初始化单位矩阵还ok,如果不是的话,就很容易梯度爆炸。而cnn不同的是各个W是不同的,这样的话就会避免梯度

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值