一般情况下,监督学习最小化问题的通式

本文作为学习笔记,内容摘抄自网页+自己的感想。如有错误的地方,还望指正。


为了更快地熟悉机器学习,本文总结了在机器学习中关于监督学习最小化问题的一般思想。内容有如下两个方面:


监督学习最小化问题的通用目标函数

机器学习中的监督学习问题通常即是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有良好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。

通常情况下,监督学习可以看作最小化下面的目标函数:
(正则化代价函数)=(经验代价函数)+(正则化参数)×(正则化项)

经验代价函数是为了测量模型预测与实际结果的误差,因为要拟合训练样本,所以要求这一项最小,也就是要求模型尽量的拟合训练数据。但不仅需要保证训练误差最小,更希望模型的测试误差小,故需要加上(正则化参数)×(正则化项)来约束模型尽可能的简单。

机器学习中大部分带参模型都和这个型很相似,大部分情况下就是变换这两项。对于第一项损失函数,如果是Square Loss,那就是最小二乘了;如果是Hing Loss,那就是著名的SVM了;如果是Exp-Loss,那就是Boosting了;如果是Log-Loss,那就是Logistic Regression了。不同的Loss函数具有不同的拟合特性,得具体问题具体分析。

正则化项

本文主要阐述下L0范数,L1范数与L2范数分别具有的意义及作用。
* L0范数
L0范数是指向量中非0元素的个数。如果用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0,换句话说,让参数W是稀疏的。(L0范数很难优化求解,属于NP难问题,而L1范数是L0范数的最优凸近似,且L1范数比L0范数更容易优化求解,故一般稀疏都会想到L1范数)
* L1 范数
L1范数是指向量中各个元素的绝对值之和,也叫“稀疏规则算子”(Lasso Regularization)。L1范数可以进行特征选择,即让特征的系数变为0。
L1范数为什么会使权值稀疏????
因为L1范数是L0范数的最优凸近似。实际上,任何的规则化算子,如果它在W i=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。这说是这么说,W的L1范数是绝对值,|W|在W=0处是不可微的,但这还是不够直观,所以需要和L2范数进行对比分析。
* L2范数
L2范数是指向量中各元素的平方和然后求平方根,记为||W|| 2。在回归里面,它的回归叫“岭回归”(Ridge Regression),也叫它“权值衰减weight decay”。L2范数可以防止过拟合,提升模型的泛化能力。
为什么L2范数可以防止过拟合????
为了让L2范数的规则项||W|| 2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,L2范数不会让它等于0,只是接近于0,这里有很大的区别。
而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单?原因:限制参数很小,实际上就限制了多项式某些分量的影响很小,这就相当于减少参数个数。
L1与L2 范数的区别
  1. 下降速度:最小化权值参数L1比L2变化的快
  2. 模型空间的限制:L1会产生稀疏,L2不会。通过L2范数,可以实现对模型空间的限制,从而在一定程度上避免了过拟合。
  3. 特征是否为0:L1会趋向于产生少量的特征,而其他的特征都是0;L2会选择更多的特征,但这些特征都只是会接近于0并非取值为0。

[内容出处] zhuanlan.zhihu.com/p/23503640
                zhuanlan.zhihu.com/p/28023308

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值