正则化

最新推荐文章于 2018-07-09 20:48:29 发布

夏殇0808

最新推荐文章于 2018-07-09 20:48:29 发布

阅读量345

点赞数 1

分类专栏：学习笔记 machine learning

本文链接：https://blog.csdn.net/u012328476/article/details/72857591

版权

学习笔记同时被 2 个专栏收录

121 篇文章 1 订阅

订阅专栏

machine learning

8 篇文章 0 订阅

订阅专栏

回头重新看正则化相关的知识，又了一些新的感悟。

1. 为什么要有正则化？

1.1 学习问题本质

当我们训练一个模型的时候，需要知道预测结果的好坏。用#损失函数#度量模型一次预测好坏，用#风险函数#度量模型平均预测好坏。风险函数也称#期望风险#，是损失函数的期望，即是模型关于联合分布P(X,Y)的平均意义下的损失。联合分布是未知的、想通过学习得到的，所以学习问题就变成了一个病态问题。

1.2 解决方法

对于上述病态问题，当样本量足够大时，我们可以根据大数定理，用#经验风险#近似替代#期望风险#。当样本量有限时，可以通过先对经验风险进行一些矫正然后再替代期望风险。矫正的方法有两种，一是经验风险最小化，二是结构风险最小化。而结构风险最小化等价于正则化。

2.正则化项L1范数与L2范数

大牛的博客已经从很多方面介绍了范数规则化相关知识。但是他在谈到L1和L2区别时，通过函数曲线说“Lasso的图看起来像ridge，而ridge的图看起来像lasso”，我觉得有失大牛一贯严谨的作风。因为ridge的由来是在讲解回归问题时介绍的。这里我再补充一下。

2.1 岭回归

从题目名字就可以看出，岭回归挂边回归问题。最先它是用来处理特征数多于样本数的情况，现在也用于在估计中加入偏差，从而得到更好的估计。为什么会提到特征数和样本数呢？因为我们在解决机器学习的一个大类问题：回归。说到回归，一般都指线性回归，即可以将输入项分别乘以一些常量，再将结果加起来得到输出。线性回归一般采用平方误差作为损失函数（原因见相关专题博客），如下：