3、CNN、RNN、LSTM

最新推荐文章于 2024-03-17 19:11:59 发布

Jeu

最新推荐文章于 2024-03-17 19:11:59 发布

阅读量758

点赞数

分类专栏： nlp 文本分类自然语言处理文章标签：梯度消失梯度爆炸 cnn rnn lstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cuipanguo/article/details/103703763

版权

本文详细介绍了CNN、RNN和LSTM的工作原理及其在处理序列数据时遇到的梯度消失和爆炸问题。CNN利用卷积核整合上下文信息，RNN通过循环结构处理更长上下文，但易出现梯度问题。LSTM通过门控机制解决这一问题，有效地保留和传递信息。同时，文章提到了激活函数的选择和损失函数的影响，以及解决梯度问题的策略。

摘要由CSDN通过智能技术生成

1、CNN：就是把每个字转换成向量，再拼接成图像的样式，再用卷积核处理，再池化和拼接，再softmax得到分类结果，卷积核的作用能够整合一些上下文信息。

ç½ç»ç»æ

2、RNN：前向网络中加入了前一个字的信息，隐含层嘛；能够整合更多的上下文信息，效果更好，但是会出现梯度消失和爆炸。产生的原因是什么呢？在bp过程中（这里就不推导了），当前层参数的导数是后面所有层导数跌成的结果，主要包含激活函数的导数和权值矩阵两个方面；梯度爆炸是因为初始化权重矩阵太大，导致每一层的权重矩阵和激活函数导数的乘积都大于1,；所以初始化权重矩阵不易太大；梯度消失是因为激活函数的导数明显小于1，导致跌成之后远小于1，如sigmoid函数的导数永远小于0.25，tan函数的导数值分布也比较小，不能使用激活函数relu，因为这个还是会导致梯度爆炸。hinton的论文中说了替换成relu会导致很大的输出值，举个例子：

a(i) = Wf(i-1) +Ux(i) +b(i) 激活函数的输入，x(i)是每个阶段的输入，

f(i) = f[a(i)] 激活函数的输出

rnn中每一层的W相同，所以在求当前层的变化时，叠乘由于激活函数导数都是1，那么就是W的n次方，如果把W初始化单位矩阵还ok，如果不是的话，就很容易梯度爆炸。而cnn不同的是各个W是不同的，这样的话就会避免梯度

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
3、CNN、RNN、LSTM

1、CNN：就是把每个字转换成向量，再拼接成图像的样式，再用卷积核处理，再池化和拼接，再softmax得到分类结果，卷积核的作用能够整合一些上下文信息。2、RNN：前向网络中加入了前一个字的信息，隐含层嘛；能够整合更多的上下文信息，效果更好，但是会出现梯度消失和爆炸。产生的原因是什么呢？在bp过程中（这里就不推导了），当前层参数的导数是后面所有层导数跌成的结果，主要包含激活函数的导数和权值...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。