CS231n 6.1激活函数学习笔记

最新推荐文章于 2022-09-27 12:47:33 发布

江湖小白骗

最新推荐文章于 2022-09-27 12:47:33 发布

阅读量253

点赞数

分类专栏： CS231n

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40938902/article/details/83217784

版权

CS231n 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最小批量梯度下降

训练神经网络

内容总述

准备

我们在刚开始要如何建立起神经网络
要选择什么样的激活函数
怎么做数据预处理
权重初始化、正则化和梯度检查

动态训练

如何监督这个学习过程
如何选择参数的特定更新规则
怎样做超参数优化从而获取最佳超参数

模型评估和模型集成

激活函数

Sigmoid函数

问题：(1) 饱和神经元使得梯度消失
(2) Sigmoid是一个非零中心的函数
当神经元输入始终为正或始终为负时，W将会始终朝着一个方向更新
(3) 指数函数的计算代价比较高
tanh函数
- ReLU函数(Rectified Linear Unit)
ReLU = max(0,x)

优点：(1) 解决了函数在输入大于零的区间的饱和性的问题
(2) 计算量不大，收敛速度比上述两个函数都快，大概快6倍
(3) 有更精确的估计
Alexnet 就利用了这个函数
问题：(1) 不以零为中心
(2) 负半轴的部分仍存在饱和的现象
这种现象也被我们称为dead ReLU
有时在初始化时稍正向的初始化ReLU，以增加概率，但实际应用不多，多数时候知识将偏置项初始化为0
Leaky ReLU函数
f(x) = max(0.01*x,x)
Exponential Linear Units ( ELU )
最大输出神经元

实际当中
用ReLU时要注意学习率的设置
可以尝试使用Leaky ReLU / Maxout / ELU
尝试使用tanh但是不要抱有太大的期望
不要使用sigmoid

数据预处理？？

一般来说我们总是希望预处理数据
初始数据 -> 零均值化数据 -> 归一化数据 ( 通过标准差 )
还有一些更加复杂的数据预处理的操作，比如PCA 、白化
在图像处理领域中，我们做零均值化而不做归一化，并且一般也不会进行更加复杂的操作

江湖小白骗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS231n 6.1激活函数学习笔记

最小批量梯度下降训练神经网络内容总述准备我们在刚开始要如何建立起神经网络要选择什么样的激活函数怎么做数据预处理权重初始化、正则化和梯度检查动态训练如何监督这个学习过程如何选择参数的特定更新规则怎样做超参数优化从而获取最佳超参数模型评估和模型集成激活函数Sigmoid函数问题：(1) 饱和神经元使得梯度消失(2) Sigmoid是一个非零中...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。