一、欠拟合与过拟合
1、欠拟合的解决方法:
增加输入特征项
增加网络参数
减少正则化参数
2、过拟合的解决方法;
数据清洗
增大训练集
采用正则化
增大正则化参数
二、正则化
1、正则化缓解过拟合
正则化在损失函数中引入模型复杂度指标,利用给w加权值,弱化了训练数据的噪声(一般不正则化b)
2、损失函数的形式:
loss = loss(y 与 y_) + REGULARIZER * loss(w)
loss(y 与 y_) 是模型中所有参数的损失函数,如:交叉熵,均方误差
REGULARIZER 超参数,参数w在总loss中的比例,也就是正则化的权重
loss(w)需要正则化的参数
3、正则化的类型:
l1正则化
l2正则化
通常可以这样理解:损失函数追求最小值,以在二维平面上拟合为例,就是曲线尽量通过所有训练点,曲线很多弯曲,不平滑,w的各值很大,造成过拟合。正则化就是在原来的损失函数后面加入一个惩罚项,不管是l1还是l2,当过分追求通过所有点时,原损失函数是变小了,但是惩罚项变大了,两者相加的损失函数不是最小,所以必须减小w来达到新的平衡,这样曲线就平滑了,就缓解了过拟合。
4、正则化的选择:
L1正则化大概率会使很多参数变为零,因此该方法可以通过稀疏参数,即减少参数个数,降低复杂度。
L2正则化会使很多参数接近零担不等于零,因此该方法可以通过减小参数的值来降低复杂度