过拟合、正则化点点滴滴

过拟合、正则化点点滴滴

文档可下载

1. 判断方法

过拟合(Over-fitting),模型在训练样本表现的过于优越,在验证集测试集表现不佳。出现这种现象的原因是训练数据中存在噪音或者训练数据太少

过拟合问题,特征维度(或参数过多,导致拟合的函数完美经过训练集,但是对新数据预测结果较差

2.产生的原因

造成过拟合的原因可以归结为:参数过多  或  样本过少

常见的原因:

  1. 训练样本数据量太少、样本标注错误
  2. 样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则
  3. 参数太多模型复杂度过高
  4. 权值学习迭代次数足够多(Overtraining)即训练轮数过大,拟合了训练数据中的噪音和训练样例中没有代表性的特征。

3. 解决方法|防止过拟合

  1. 在神经网络模型中,可使用权值衰减(L2)的方法,即每次迭代过程中以某个小因子降低每个权值。
  2. Early stopping:选取合适的停止训练标准,使对机器的训练在合适的程度
  3. 数据增强
  4. 正则化,L1和L2正则化、Dropout随机选取正则化。

4. 为什么正则化能解决过拟合?

特征变量过多会导致过拟合,为了防止过拟合会选择一些比较重要的特征变量,删掉很多次要的特征变量,但是我们希望利用这些特征信息,所以添加正则化来约束这些特征变量,使得这些特征变量的权重很小,接近0,这样就能保留这些特征变量,又不至于使得这些特征变量的影响过大。

5. L1和L2正则化?

L2和L1范数正则化都有助于降低过拟合风险,但是L1还会带来一个额外的好处,L1正则化更易获得“稀疏”解,即它求得的参数W会有更少的非零分量。

6. L1为什么更能容易得到稀疏解?

假定特征集合x两个特征,x={x1,x2}。对应的W也有两个分量即w={W1,W2}。然后分别再2维坐标上绘制出损失函数的等值线(即在(W_1,W_2)空间中平方误差项值相同的点的连线)。然后分别绘制出L1范数和L2范数的等值线。如下图所示:

https://raw.githubusercontent.com/ComputationalAdvertising/spark_lr/master/img/ml_1_2_2_l1_l2_regularization.png

带正则化项求得的解w要在损失函数项和正则化项之间这种,即出现在图中损失函数项等值线与正则化项等值线相交处。从图2-2可以看出,采用L1范数时平方损失项的等值线与正则化项等值线的交点出现在(参数空间)坐标轴上,即w1或w2为0;而在采用L2范数时,两个等值线的相交点常出现在某个象限内(如图示第2象限),即w1或w2均非0。从图示例可以看出,在目标函数中,加入采用L1范数比L2范数更易于得到稀疏解。

7. L1和L2正则化的区别?


 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tiki_taka_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值