损失函数和风险函数

最新推荐文章于 2023-05-16 23:59:08 发布

Mr_Napping

最新推荐文章于 2023-05-16 23:59:08 发布

阅读量2.2k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41910742/article/details/82755523

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

损失函数度量模型预测一次的好坏，即模型预测一次其预测值与真实值之间的差别。

风险函数度量模型平均意义上预测能力的好坏，即模型预测n次预测值与真实值差别的平均。

记f(X)为模型的输出预测值，Y为对应输入的真实值，则损失函数为f(x)和Y的非负实值函数，记为L(Y,f(x))。

常用的损失函数有如下几种：

1.0-1损失函数

0-1损失函数通过比较真实值与预测值是否相等进行度量模型的好坏，若预测值与真实值相等则L=0，不相等则L=1，其为一种“是与非”的思想，而并不考虑预测值与真实值之间的差距。

2.平方损失函数

平方损失函数度量的是预测值与真实值之间的距离，用 [Y- f(x)]^2 进行计算。

3.绝对损失函数

绝对损失函数度量的同样是预测值与真实值之间的距离，用 | Y-f(X) | 进行计算。

4.对数损失函数

L(Y,f(x))=-log(P(Y|X))

可以看到，其输入是标签Y和预测值f(X)，即对于极大似然来说，其样本集变为label集而非X集，

首先，对数损失函数运用了最大似然估计的思想，极大似然估计是建立在极大似然原理上的一个统计方法，通俗来讲，即概率较大的事件较为可能发生，例如，现有两个箱子，箱子A有红球1个，白球99个，箱子B有红球99个，白球1个，则现随机选取一个箱子并抽取一个小球，发现是红色，这是我们更容易倾向于相信红球是从箱子B取出的，因为该概率较红球是从箱子A中取出的概率更大。这就是最大似然原理的思想，也可以通俗的理解为最为可能思想。

极大似然估计是建立在这样的思想上：已经样本满足某种概率分布，而参数未知，对于参数的选取为，若某个参数能使这个样本出现的概率最大，则选取该参数作为估计值。

因此，对于对数损失函数，其中， P(Y|X) 表示当前模型在样本为X的情况下得到预测值为Y的概率，其在一定程度上表示预测值与真实值的接近程度。要使损失函数最小，则使得在样本为X的情况下得到预测值为Y的概率越大，扩展到风险函数，则使得在样本为X1,X2,X3,...,Xn的情况下得到预测值为Y1,Y2,Y3,...,Yn的概率最大，由于在计算当中，多个概率的乘法最终会得到一个非常小的值，从而可能造成下溢 underflow，因此一般会进一步对之前的似然函数取一个对数，将连续乘法转化为加法，因此利用 log 函数进行变换，从而实现积到和的形式转变，进一步考虑到目前情况为当概率最大时损失最小，为使最大似然与最小损失相对应，则在前面加负号（-），使得当所得值最小时，代表损失最小。

损失函数越小则模型就越好，由于模型输入和输出（X,Y）是随机变量，遵循联合分布P（X,Y），所以以上损失函数的期望为：

$R_{exp}(f)=E_{p}[L(Y,f(x))]=\int_{XxY} L(y,f(X))P(x,y)dxdy=-\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{M}P(x,y)log(p(Y|X))$

而模型f(x)关于训练数据集的平均损失即经验风险或经验损失为：

$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))$

根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险，因此在联合分布未知的情况下，可以用经验风险估计期望风险。由于现实中训练样本数目有限，甚至很小，用经验风险估计期望风险常常不理想，因此需要对经验风险做一定的矫正，一般用到的两种策略为：经验风险最小化和结构风险最小化。

Mr_Napping

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
损失函数和风险函数

损失函数度量模型预测一次的好坏，即模型预测一次其预测值与真实值之间的差别。风险函数度量模型平均意义上预测能力的好坏，即模型预测n次预测值与真实值差别的平均。记f(X)为模型的输出预测值，Y为对应输入的真实值，则损失函数为f(x)和Y的非负实值函数，记为L(Y,f(x))。常用的损失函数有如下几种：1.0-1损失函数0-1损失函数通过比较真实值与预测值是否相等进行度量模型的好坏，...
复制链接

扫一扫

专栏目录