机器学习优化模型——经验风险及其一般优化模型

本文深入探讨了机器学习中的经验风险及其一般优化模型,从损失函数出发,阐述了经验风险和期望风险的区别,以及泛化误差的重要性。通过Hoeffding不等式分析了泛化误差的界限,并指出样本数量和VC维对模型泛化能力的影响。
摘要由CSDN通过智能技术生成

1.经验风险及其一般优化模型

1.1损失函数:

损失函数 L ( f ( X i ) , Y i ) L(f(X_i),Y_i) L(f(Xi),Yi)是针对单个样本而言的,表示模型预测值与样本真实值之间的差距 。常见损失函数:
1.0-1损失函数
f ( x ) = { 0 , Y ≠ f ( x ) 1 , Y = f ( x ) f(x)= \begin{cases} 0,Y\not=f(x)\\ 1,Y=f(x) \end{cases} f(x)={ 0,Y=f(x)1,Y=f(x)
2.平方损失函数
L ( Y , f ( x ) ) = ( Y − f ( x ) ) 2 L(Y,f(x))=(Y-f(x))^2 L(Y,f(x))=(Yf(x))2
3.绝对损失函数
L ( Y , f ( x ) ) = ∣ Y − f ( x ) ∣ L(Y,f(x))=|Y-f(x)| L(Y,f(x))=Yf(x)
4.对数损失函数或者对数似然损失函数
L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(YX))=logP(YX)
通过选取上述任一损失函数,我们可以衡量针对某一具体样本点的测量值和真实值之间的差异度的方法。损失函数越小,说明模型预测结果越准确。

对所有样本点计算其损失函数,加起来求和取平均,就可以得到模型在该训练样本集中的平均损失,也叫做经验风险
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) (1.1) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N{L(y_i,f(x_i))} \tag{1.1} Remp(f)=N1i=1NL(yi,f(xi))(1.1)

1.2经验风险及其一般优化模型

定义1 经验风险 : 训练集中所有额样本点的损失函数的平均。
经验误差只是模型在训练集上的表现,对于未知样本,是不是只有上帝才能知道它的效果呢?非也。借助数学工具,我们可以充当“上帝”的角色,去预测模型在未知样本上的表现性能。

定义2 期望风险(真实风险): 假设全体样本(包括已知样本和未知样本)为 X X X,他的真实结果是 Y Y Y,预测结果是 f ( x ) f(x) f(x)。期望风险可以表示为:
R e x p ( f ) = E r [ L ( Y , f ( X ) ) ] = ∫ x × y L ( y , f ( x ) ) p ( x , y ) d x d y (1.2) R_{exp}(f)=E_r[L(Y,f(X))]=\int_{x \times y}{}L(y,f(x))p(x,y)dxdy \tag{1.2} Rexp(f)=Er[L(Y,f(X))]=x×yL(y,f(x))p(x,y)dxdy(1.2)
期望风险与经验风险的不同之处在于,期望风险是全局的概念,表示的是决策函数对所有样本的预测能力;而经验风险反映的是决策函数对训练集样本的预测能力。

只有上帝知道期望风险的真实值,我们需要做的,使用局部最优替代全局最优???

定义3 泛化误差:针对这样一个问题:在一个有限的样本集合上的评价和一个无限的数据集合上的评价是否一致?

如果一个算法 f ∗ f^* f在全体数据集 D D D上是最好的,则算法的期望风险最小,又叫做贝叶斯风险,是理论上可达到的最小风险。

  • f ∗ : f^* : f: 全体数据集 D \mathbb{D} D 上在无限多的算法中找到的最好的算法。反映理论上可以预测多好,对应的真实风险 R ∗ R^* R
  • f F ∗ : f^*_{\mathcal{F}}: fF: 全体数据集 D \mathbb{D} D 上在有限算法 F \mathbb{F} F 上选出的最佳算法 .对应的真实风险是 R e x p ( f F ∗ ) R_{exp}(f^*_{\mathcal{F}}) Rexp(fF)
  • f F ^ : \hat{f_{\mathcal{F}}}: fF^: 有限数据集 S \mathbb{S} S 上,在有限个算法集合 F \mathbb{F} F 里选出的最佳算法。对应的真实风险是 R e m p ( f ^ F ) R_{emp}(\hat{f}_{\mathcal{F}}) Remp(
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值