损失、风险函数与正则化

最新推荐文章于 2024-04-25 20:35:25 发布

EntropyPlus

最新推荐文章于 2024-04-25 20:35:25 发布

阅读量204

点赞数

分类专栏：机器学习中常用的技巧

原文链接：https://daya-jin.github.io/2018/10/09/Regularization

版权

机器学习中常用的技巧专栏收录该内容

1 篇文章 0 订阅

订阅专栏

损失、风险函数与正则化

1 损失函数
2 [正则化](https://daya-jin.github.io/2018/10/09/Regularization/)
3. 参考文献

1 损失函数

1.1 损失函数是啥？

在监督学习问题中：

给定的输入变量记为 $\boldsymbol{X}$ ；
函数 $f(\boldsymbol{X})$ 输出值记为预测值；
数据真实变量为 $\boldsymbol{Y}$ 。

那么，损失函数是用于度量预测错误的程度，即 $\boldsymbol{Y}$ 与 $f(\boldsymbol{X})$ 不一致的程度。该函数记为： $L(\boldsymbol{Y}, f(\boldsymbol{X}))$ 。

1.2 机器学习中常用的损失函数

在这里插入图片描述

1.3 期望风险

损失函数越小，说明 $f(\boldsymbol{X})$ 越好，对于数据 $(\boldsymbol{X, Y})$ 来说，其联合分布为 $P(\boldsymbol{X, Y})$ 。损失函数 $f(\boldsymbol{X})$ 的期望 $R_{exp}(f)$ 是：
$\begin{aligned} R_{exp}(f)=&E_P[L(\boldsymbol{Y}, f(\boldsymbol{X}))]\\ =&\int_{X,Y}L(\boldsymbol{Y}, f(\boldsymbol{X}))P(\boldsymbol{Y}, f(\boldsymbol{X}))dxdy \tag{1.1} \end{aligned}$
称 $R_{exp}(f)$ 为风险函数或期望损失。

在风险函数中，有 $\boldsymbol{X,Y}$ 构成了联合分布，才能更好的学习 $f$ ，但是，由于只知道一部分样本的 $P(\boldsymbol{X,Y})$ ，所以，在这个已知数据集上计算出来的平均损失称为经验风险，记为 $R_{emp}$ ：
$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(\boldsymbol{x_i})) \tag{1.2}$

2 正则化

一般来说，我们的目的是为了让经验风险足够小，但是在训练集上可能出现了过拟合的情况，如右图所示：
在这里插入图片描述

正则化就是为了让模型变的简单，也就是尽可能的让 $\theta_3, \theta_4$ 尽可能的小。

总的来说，面对大量参数的时候，我们不知道应该惩罚哪些参数的权重，因此，通常从第1项开始（忽略第0项），有如下形式：
$\min_{f \in F}\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(\boldsymbol{x_i}))+\lambda J(f)$
其中 $\lambda$ 为惩罚系数， $J (f)$ 代表常用的范数。
$J(f)=||\boldsymbol{w}||=(\sum_{i}|w_i|^p)^{1/p}$

2.1 L1 范数

$J(f)=||\boldsymbol{w}||=(\sum_{i}|w_i|)$
L1范数为向量中所有值的绝对值之和，使用L1范数作为正则函数时，优化的目标函数变为：
$\min_{f \in F}\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(\boldsymbol{x_i}))+\lambda ||\boldsymbol{w}||_1$
在上式中，假如 $L(y_i,f(\boldsymbol{x_i}))$ 是一个二次函数，那么目标函数的等值线是一个椭圆或圆；而约束条件为L1范数，其等值线为一个菱形。目标函数的等值线与约束边界的图像如下图所示
在这里插入图片描述
可以看到，在约束条件下的最优解，总是处于约束条件的角上，而约束条件的角上必定会出现一个或多个 $w_i$ 的情况，这就导致了解稀疏性，在更高维的情况下也是如此。

以L1范数为正则项可以用来筛选特征，得出的非零 $w_i$ 所对应的特征是关联特征，若 $w_j=0$ ，说明第 $j$ 个特征肯定是弱特征。

2.2 L2 范数

2.2.1 定义

$J(f)=||\boldsymbol{w}||=(\sum_{i}w_i^2)^{1/2}$
使用L2范数的条件下，目标函数变为：
$\min_{f \in F}\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(\boldsymbol{x_i}))+\lambda ||\boldsymbol{w}||_2$
在这里插入图片描述

2.2.2 L2 的来源

假设数据中出现了误差，那么有：

$\begin{aligned} \boldsymbol{A}(\boldsymbol{x}+\boldsymbol{\Delta x})=&\boldsymbol{b}+\boldsymbol{\Delta b}\\ \boldsymbol{A}\boldsymbol{x}+\boldsymbol{A}\boldsymbol{\Delta x}=&\boldsymbol{b}+\boldsymbol{\Delta b}\\ \boldsymbol{A}\boldsymbol{\Delta x}=&\boldsymbol{\Delta b} \end{aligned}$
因为有：
$||\boldsymbol{x_1}*\boldsymbol{x_2}|| \leq ||\boldsymbol{x_1}||*||\boldsymbol{x_2}||$
所以：
$||\boldsymbol{\Delta x}|| \leq ||\boldsymbol{A}^{-1}||*||\boldsymbol{\Delta b}||\\ ||\boldsymbol{x}|| \geq \frac{||\boldsymbol{b}||}{||\boldsymbol{A}||}$
所以：
$\begin{aligned} \frac{||\boldsymbol{\Delta x}||}{||\boldsymbol{x}+\boldsymbol{\Delta x}||} \leq \frac{||\boldsymbol{\Delta x}||}{||\boldsymbol{x}||}\leq \frac{||\boldsymbol{\Delta b}||}{||\boldsymbol{b}||} *||\boldsymbol{A}^{-1}||*||\boldsymbol{A}|| \end{aligned}$
所以
$K(\boldsymbol{A})=||\boldsymbol{A}||*||\boldsymbol{A}^{-1}||$
表示了解关于方程系数的敏感度，也侧面体现了矩阵中列向量之间的线性相关强度。

3. 参考文献

Regularization

EntropyPlus

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
损失、风险函数与正则化

损失、风险函数与正则化1 损失函数1.1 损失函数是啥？1.2 机器学习中常用的损失函数1 损失函数1.1 损失函数是啥？在监督学习问题中：给定的输入变量j记为X\boldsymbol{X}X；函数f(X)f(\boldsymbol{X})f(X)输出值记为预测值；数据真实变量为Y\boldsymbol{Y}Y。那么，损失函数是用于度量预测错误的程度，即Y\boldsymbol{...
复制链接

扫一扫

专栏目录