机器学习中的梯度消失问题vanishing gradient

最新推荐文章于 2024-08-08 07:16:06 发布

a051230508

最新推荐文章于 2024-08-08 07:16:06 发布

阅读量1.5k

点赞数 1

分类专栏： Machine Learning

Machine Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

翻译自Nikhil Garg的Quora回答。

梯度消失是使用梯度下降方法的神经网络中出现的问题，其表现是，在反向回馈（backpropagation）中使整个网络难以调节前面几层的参数（Parameter）。当网络的层数越多时，梯度消失表现越明显。

这个问题不是神经网络所带来的，而是由特定的激活函数（activation function）采用梯度下降的方法所带来的。

问题

梯度下降方法通过参数的细小变化来影响整个神经网络的输出。但是如果参数的细小变化不能有效影响神经网络的输出（只带来非常小的改变），整个网络就不能有效的学习，这就是梯度消失问题。

在梯度消失的问题中，神经网络在最前面层的梯度变的非常小，即使前几层的参数变化很多，对神经网络的输出也影响不大。

原因

梯度消失问题取决于所选的激活函数，很多常用的激活函数如t（anh，sigmoid）通过非线性的方法将输入压缩到很小的范围内。例如：sigmoid函数（ y = 1 / ( 1 + e ^ -x) ）将输入压缩到（0，1）之间。所以即使很大的输入经过激活函数后也只有很小的输出，因此梯度很小。

(f1: sigmoid function)

当多层的非线性激活函数叠加在一起后，情况会变得更糟。例如第一层将一个大区间的输入映射到一个小的区间，下一层会将其映射到一个更小的区间，因此即使第一层的参数变化很大，也不会对影响整个输出。

解决方法

如何解决这样的问题呢？一个常用的方法就是通过Relu函数( y = max (0,x) )

(f2 : Relu function)

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。