神经网络激活函数有哪些,神经网络中的激活函数

最新推荐文章于 2024-07-17 16:06:38 发布

阳阳2013哈哈

最新推荐文章于 2024-07-17 16:06:38 发布

阅读量540

点赞数

分类专栏：物联网

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mynote/article/details/126295933

版权

深度学习之损失函数与激活函数的选择

深度学习之损失函数与激活函数的选择在深度神经网络（DNN）反向传播算法(BP)中，我们对DNN的前向反向传播算法的使用做了总结。其中使用的损失函数是均方差，而激活函数是Sigmoid。

实际上DNN可以使用的损失函数和激活函数不少。这些损失函数和激活函数如何选择呢？以下是本文的内容。MSE损失+Sigmoid激活函数的问题先来看看均方差+Sigmoid的组合有什么问题。

回顾下Sigmoid激活函数的表达式为：函数图像如下：从图上可以看出，对于Sigmoid，当z的取值越来越大后，函数曲线变得越来越平缓，意味着此时的导数σ′(z)也越来越小。

同样的，当z的取值越来越小时，也有这个问题。仅仅在z取值为0附近时，导数σ′(z)的取值较大。在均方差+Sigmoid的反向传播算法中，每一层向前递推都要乘以σ′(z),得到梯度变化值。

Sigmoid的这个曲线意味着在大多数时候，我们的梯度变化值很小，导致我们的W,b更新到极值的速度较慢，也就是我们的算法收敛速度较慢。那么有什么什么办法可以改进呢？

交叉熵损失+Sigmoid改进收敛速度Sigmoid的函数特性导致反向传播算法收敛速度慢的问题，那么如何改进呢？换掉Sigmoid？这当然是一种选择。

另一种常见的选择是用交叉熵损失函数来代替均方差损失函数。每个样本的交叉熵损失函数的形式：其中，?为向量内积。

这个形式其实很熟悉，在逻辑回归原理小结中其实我们就用到了类似的形式，只是当时我们是用最大似然估计推导出来的，而这个损失函数的学名叫交叉熵。

使用了交叉熵损失函数，就能解决Sigmoid函数导数变化大多数时候反向传播算法慢的问题吗？我们来看看当使用交叉熵时，我们输出层δL的梯度情况。

对比一下均方差损失函数时在δL梯度使用交叉熵，得到的的δl梯度表达式没有了σ′(z)，梯度为预测值和真实值的差距，这样求得的Wl,bl的梯度也不包含σ′(z)，因此避免了反向传播收敛速度慢的问题。

通常情况下，如果我们使用了sigmoid激活函数，交叉熵损失函数肯定比均方差损失函数好用。

对数似然损失+softmax进行分类输出在前面我们都假设输出是连续可导的值，但是如果是分类问题，那么输出是一个个的类别，那我们怎么用DNN来解决这个问题呢？

DNN分类

最低0.47元/天解锁文章

阳阳2013哈哈

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经网络激活函数有哪些,神经网络中的激活函数

比如如下的梯度计算：如果不巧我们的样本导致每一层的梯度都小于1，则随着反向传播算法的进行，我们的δl会随着层数越来越小，甚至接近越0，导致梯度几乎消失，进而导致前面的隐藏层的W,b参数随着迭代的进行，几乎没有大的改变，更谈不上收敛了。简单理解，就是在反向传播的算法过程中，由于我们使用了是矩阵求导的链式法则，有一大串连乘，如果连乘的数字在每层都是小于1的，则梯度越往前乘越小，导致梯度消失，而如果连乘的数字在每层都是大于1的，则梯度越往前乘越大，导致梯度爆炸。同样的，当z的取值越来越小时，也有这个问题。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。