统计学习理论

根据给定的训练样本,机器学习的目的是求出对某系统输入输出之间的依赖关系的估计,使它能够对未知输出尽可能准确地预测。

可以一般地表示为,变量y与x存在一定的未知依赖关系,即遵循某一未知的联合概率F(x,y)。机器学习问题就是根据l个独立同分布观测样本

(x1,y1)(x2,y2)(x3,y3)...(xl,yl)            (3.1)

  • 在一组函数{f(x,w)}中求一个最优的函数f(x,w0)对依赖关系进行估计,使期望风险 
                                         (3.2)                           

最小,其中,{f(x,w)}称作预测函数集,w为广义参数;L(y,f(x,w))为损失函数,不同类型的学习问题有不同形式的损失函数。

机器学习问题有三类:模式识别、函数逼近和概率密度估计。

对于模式识别问题,输出y是类标号;两类情况下,其预测函数也称作指示函数,其损失函数可以定义为

                                              (3.3)

在函数逼近问题中,y是连续变量,采用最小平方误差准则,损失函数可以定义为

                                            (3.4)

而对概率密度估计问题,学习的目的是根据训练样本确定x的概率密度,记估计的密度函数为p(x,w),则损失函数可以定义为

                                               (3.5)

上面的问题标书中,学习的目的在于时期望风险最小化,但由于我们可以利用的信息只有样本数据,因此式(3.2)的期望风险无法计算。传统学习方法采用经验风险最小化(ERM)准则,即用经验风险作为对式(3.1)的估计。经验风险

                                          (3.6)

对于损失函数(3.3),经验风险就是训练样本错误率;对于式(3.4)的损失函数,经验风险就是平方训练误差;而采用式(3.5),ERM准则就等价于最大似然方法。

最小化经验风险在多年的机器学习方法研究中占据了主要地位。但ERM准则代替期望风险最小化没有经过充分的理论论证,只是直观上合理的想当然的做法。ERM准则不成功的一个例子是神经网络的“过学习”问题、训练误差小,并不总能导致好的预测效果,某些情况下,训练误差过小范儿会导致推广能力的下降,即真实风险的增加。

 




  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值