机器学习中的目标函数、损失函数、代价函数有什么区别

本文探讨了机器学习中目标函数、损失函数和代价函数的区别。损失函数衡量单个样本的误差,代价函数是所有样本误差的平均,目标函数则包括代价函数和正则化项。通过实例解释了过拟合和正则化的重要性,并介绍了交叉熵损失函数及其在Logistic回归中的应用和求导过程。
摘要由CSDN通过智能技术生成

参考知乎:https://www.zhihu.com/question/52398145

基本概念:

损失函数:计算的是一个样本的误差

代价函数:是整个训练集上所有样本误差的平均

目标函数:代价函数 + 正则化项

原理:

首先给出结论:损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)。

举个例子解释一下:(图片来自Andrew Ng Machine Learning公开课视频)


<img src="https://pic3.zhimg.com/50/v2-3f4959cd70308df496ecc4568a0d982d_hd.jpg" data-rawwidth="1772" data-rawheight="524" class="origin_image zh-lightbox-thumb" width="1772" data-original="https://pic3.zhimg.com/v2-3f4959cd70308df496ecc4568a0d982d_r.jpg">

上面三个图的函数依次为 f_{1}(x) , f_{2}(x) , f_{3}(x) 。我们是想用这三个函数分别来拟合Price,Price的真实值记为 Y

我们给定 x ,这三个函数都会输出一个 f(X) ,这个输出的 f(X) 与真实值 Y 可能是相同的,也可能是不同的,为了表示我们拟合的好坏,我们就用一个函数来度量拟合的程度,比如:

L(Y,f(X)) = (Y-f(X))^2 ,这个函数就称为损失函数(loss function),或者叫代价函数(cost function)。损失函数越小,就代表模型拟合的越好

那是不是我们的目标就只是让loss function越小越好呢?还不是。

这个时候还有一个概念叫风险函数(risk function)。风险函数是损失函数的期望,这是由于我们输入输出的 (X,Y) 遵循一个联合分布,但是这个联合分布是未知的,所以无法计算。但是我们是有历史数据的,就是我们的训练集, f(X) 关于训练集的平均损失称作经验风险(empirical risk),即 \frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) ,所以我们的目标就是最小化 \frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) ,称为经验风险最小化

到这里完了吗?还没有。

如果到这一步就完了的话,那我们看上面的图,那肯定是最右面的 f_3(x) 的经验风险函数最小了,因为它对历史的数据拟合的最好嘛。但是我们从图上来看 f_3(x)肯定不是最好的,因为它过度学习历史数据,导致它在真正预测时效果会很不好,这种情况称为过拟合(over-fitting)。

为什么会造成这种结果?大白话说就是它的函数太复杂了,都有四次方了,这就引出了下面的概念,我们不仅要让经验风险最小化,还要让结构风险最小化。这个时候就定义了一个函数 J(f) ,这个函数专门用来度量模型的复杂度,在机器学习中也叫正则化(regularization)。常用的有 L_1 , L_2 范数。

到这一步我们就可以说我们最终的优化函数是:min\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f) ,即最优化经验风险和结构风险,而这个函数就被称为目标函数

结合上面的例子来分析:最左面的 f_1(x) 结构风险最小(模型结构最简单),但是经验风险最大(对历史数据拟合的最差);最右面的 f_3(x) 经验风险最小(对历史数据拟合的最好),但是结构风险最大(模型结构最复杂);而 f_2(x) 达到了二者的良好平衡,最适合用来预测未知数据集。

以上的理解基于Coursera上Andrew Ng的公开课和李航的《统计学习方法》,如有理解错误,欢迎大家指正。

  1. 前言
  2. 交叉熵损失函数
  3. 交叉熵损失函数的求导

前言

说明:本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似。 
首先,我们二话不说,先放出交叉熵的公式: 

J(θ)=1mi=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i))),J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i))),

以及 J(θ)J(θ)对 参数 θθ 的偏导数(用于诸如梯度下降法等优化算法的参数更新),如下: 
θjJ(θ)=1mi=1m(hθ(x(i))y(i))x(i)j∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))xj(i)

但是在大多论文或数教程中,也就是直接给出了上面两个公式,而未给出推导过程,而且这一过程并不是一两步就可以得到的,这就给初学者造成了一定的困惑,所以我特意在此详细介绍了它的推导过程,跟大家分享。因水平有限,如有错误,欢迎指正。

交叉熵损失函数

我们一共有m组已知样本,(x(i),y(i))(x(i),y(i))表示第 ii 组数据及其对应的类别标记。其中x(i)=(1,x(i)1,x(i)2,...,x(i)p)Tx(i)=(1,x1(i),x2(i),...,xp(i))T为p+1维向量(考虑偏置项),y(i)y(i)则为表示类别的一个数:

  • logistic回归(是非问题)中,y(i)y(i)取0或者1;
  • softmax回归(多分类问题)中,y(i)y(i)取1,2…k中的一个表示类别标号的一个数(假设共有k类)。

这里,只讨论logistic回归,输入样本数据x(i)=(1,x(i)1,x(i)2,...,x(i)p)Tx(i)=(1,x1(i),x2(i),...,xp(i))T,模型的参数为θ=(θ0,θ1,θ2,...,θp)Tθ=(θ0,θ1,θ2,...,θp)T,因此有 

θTx(i):=θ0+θ1x(i)1++θpx(i)p.θTx(i):=θ0+θ1x1(i)+⋯+θpxp(i).

假设函数(hypothesis function)定义为: 
hθ(x(i))=11+eθTx(i)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值