目录
一 神经网络的构成(架构+激活函数+最优参数学习算法)
1 架构
描述神经元的层次以及神经元的连接结构
2 激励/激活函数
1)激活函数类型
第一点:S型函数(sigmoid函数)
第二点:SS型函数(tanh函数)
第三点:ReLU函数家族
第四点:
2)激活函数的特性
- 激活函数是一种非线性函数,使得神经元具有非线性映射能力
- 旧特征由激活函数激活之后,产生新特征,两者相比,一般具有非线性关系
3)激活函数思考
第一点:Dead ReLU problem
- ReLU函数:,反向传播过程中(链式法则),由于梯度为0,导致参数无法更新
- L-ReLU可以解决该问题
第二点:ReLU函数为什么是非线性激活
从而有该函数的水平渐近线y=0,斜渐进线y=x
第三点:激活函数很少使用S型函数或者SS型函数
- S型函数(sigmoid函数)
注意:使用链式法则,层数太深,会导致梯度消失问题
- SS型函数(tanh函数)
注意:使用链式法则,层数太深,会导致梯度消失问题
3 最优参数学习算法
1)梯度下降算法
二 神经网络的分类
1 从神经网络中的神经元的层次
1)浅层神经网络(传统神经网络、全连接神经网络)
是指添加少量隐层的神经网络,隐层数量不超过2层
2)深层神经网络(DNN)
是指添加更多隐层的神经网络,一般为大于2层
注意:深度学习就是对深层神经网络(DNN)的发展
2 从神经网络中神经元的连接结构
1)前馈神经网络
一般定义为有向无环图,信号只能沿着最终输出方向传播
2)反馈神经网络(递归神经网络)
存在网络中环,即信号回传
三 神经网络的过拟合问题
1 单隐层的神经网络
理论上说,单隐层的神经网络(隐层的神经元个数足够多)可以逼近任何连续函数
2 多隐层的神经网络
在网络工程实践中发现,在训练集上多隐层的神经网络效果比单隐层的神经网络效果好,并且会随着隐层的增加,其效果越来越好,达到一定层数时候,效果几乎不变
3 多隐层神经网络带来的过拟合问题
但是提升隐层的层数和神经元个数的时候,神经网络的容量(长度与宽度)会越来越庞大,尽管在训练集上空间表达能力(预测能力)越来越强,但是在测试集上会伴随的过拟合问题出现