一、过拟合:模型过于复杂或样本较少时,模型学习过度
如何解决过拟合问题?L1、L2正则化及Dropout正则化讲解_哔哩哔哩_bilibili
1.减少模型参数;
2.数据增强;
3.正则化:在损失函数上增加惩罚项或约束条件(L1、L2正则化 通过降低参数的取值范围来降低模型复杂度 L1有稀疏化作用)
4.Dropout:以一定概率去除参数数目
二、批标准化(BN):用在全连接或卷积层后,激活函数之前
批量归一化(Batch Normalization, BN)-跟李沐老师动手学深度学习_哔哩哔哩_bilibili
1.为什么:训练、测试数据分布不同,影响网络泛化性;不同batch输入的分布不同会导致网络收敛变慢等问题
2.BN作用:提高网络收敛速度;控制梯度爆炸防止梯度消失;防止过拟合
三、学习方法:
[5分钟深度学习] #01 梯度下降算法_哔哩哔哩_bilibili
随机梯度下降(SGD);自适应梯度(Adagrad);均方根(RMSProp);自适应动量优化(Adam)
学习率:控制梯度下降的步长
动量:保留的历史梯度
四、softmax函数
什么是softmax回归,如何使用softmax回归,解决多分类任务_哔哩哔哩_bilibili
softmax回归原理及损失函数-跟李沐老师动手学深度学习_哔哩哔哩_bilibili
softmax函数常用于输出层,处理多类别分类问题。把神经网络输出转化为概率分布。所有输出值都在0和1之间,并且它们的总和为1。
五、损失函数
什么是交叉熵误差,多分类中的交叉熵损失函数_哔哩哔哩_bilibili
1.均方差损失
2.交叉熵损失:只有真实类别的项会被计算在内