8.19学习笔记
1.激活函数:在卷积或者全连接这样的线性操作之后,会加上一个非线性的函数,作用于每一个神经元的输出上从而实现非线性变换
1)Sigmoid
2)ReLU
2.批归一化BatchNorm:提升数值的稳定性
对中间层的输出做标准化,可以保证在网络学习的过程中,网络层的输出具有稳定性的分布
快速学习;降低模型对初始值的敏感性;从一定程度上抑制过拟合
模型收敛:需要稳定的数据分布
输入数据和中间层进行标准化
3.丢弃法Dropout:抑制过拟合的方法
训练阶段:每次随机删除一部分神经元,不向前传播所携带的信息,每次是不同的模型学习
测试阶段:向前传播所有神经元的信息,相当于让这些不同的模型一起工作
两种解决方法:
- downgrade_in_infer(paddle默认)训练时随机丢弃一部分神经元,预测不丢弃神经元,但把他们数值变小
- upscale_in_train 训练时随机丢弃一部分神经元,但是把保留的那些神经元数值放大,预测时原样输出所有神经元的信息