《统计学习方法》系列(1)

  最近在看李航老师的《统计学习方法》,为了让书本上的知识更好地沉淀,也便于和大家更好地交流,遂决定每看完一章则写一篇笔记,将书中值得思考的地方写下来。所写内容均包含笔者本人的理解,限于水平,难免有纰漏,望读者不吝指正。
  本篇对应全书第一章,主要讲了统计学习方法的一些基本概念。


1.基本概念

a).统计学习方法主要有:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)。
b).统计学习方法三要素:模型(model)、策略(strategy)、算法(algorithm)。
c).统计学习假设数据存在一定的统计规律, X X Y具有联合概率分布的假设就是监督学习关于数据的基本假设;训练数据与测试数据被看作是依联合概率分布 P(X,Y) P ( X , Y ) 独立同分布产生的。
d).监督学习的模型:概率模型(条件概率 P(Y|X) P ( Y | X ) )、非概率模型(决策函数 Y=f(X) Y = f ( X ) )。
e).损失函数(loss function)度量模型一次预测的好坏,风险函数(risk function)度量平均意义下模型预测的好坏。
f).常用的损失函数:0-1损失、平方损失、绝对损失、对数损失。
g).期望风险 Rexp(f) R e x p ( f ) 是模型关于联合分布的期望损失,经验风险 Remp(f) R e m p ( f ) 是模型关于训练样本集的平均损失。
h).通常将学习方法对未知数据的预测能力成为泛化能力(generalization ability)。
i).过拟合(over-fitting):模型包含的参数过多,以致于出现这一模型对已知数据预测的很好,但对未知数据预测的很差的现象。
j).监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。
k).监督学习解决的三大类问题:分类问题、标注问题、回归问题。
l).分类问题的评价指标:准确率(accuracy)、精确率(precision)、召回率(recall)。

2.核心概念

a).监督学习的过程可以概括如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测。
b).在预测过程中,预测系统对于给定的测试样本集中的输入 xN+1 x N + 1 ,由模型 yN+1=argmaxyN+1P̂ (yN+1|xN+1) y N + 1 = a r g m a x y N + 1 P ^ ( y N + 1 | x N + 1 ) yN+1=f̂ (xN+1) y N + 1 = f ^ ( x N + 1 ) 给出相应的输出。
c).根据大数定律,当样本容量 N N 趋于无穷时,经验风险Remp(f)趋于期望风险 Rexp(f) R e x p ( f ) ,因此,当样本容量足够大时,经验风险最小化能保证有很好的学习效果,反之,则可能过拟合。
d).统计学习问题最终归结于最优化问题,统计学习可以利用已有的最优化算法,有时也需要开发独自的最优化算法。

3.泛化误差上界

  书中根据Hoeffding不等式,对泛化误差上界作了证明。整个推导过程还是比较容易的,不过对于数学基础欠缺的读者而言,可能还是会在某些地方卡住,这里我结合自己的理解,对书中的其中一处推导作个解释,若有不当,可留言指出。
  书中写了这样一个不等式:

P(R(f)R̂ (f)ε)exp(2Nε2) P ( R ( f ) − R ^ ( f ) ≥ ε ) ≤ e x p ( − 2 N ε 2 )

其中, R(f)=E[L(Y,f(X))] R ( f ) = E [ L ( Y , f ( X ) ) ] ,是期望风险; R̂ (f)=1Ni=1NL(yi,f(xi)) R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ,是经验风险。
  结合我之前写的关于 Hoeffding不等式的博客,不难看出,作者套用的是式(2.2.2),且 Xi=L(yi,f(xi)) X i = L ( y i , f ( x i ) ) 。那么问题来了,根据式(2.2.2), R(f) R ( f ) 应该等于 E[R̂ (f)] E [ R ^ ( f ) ] 也即 E[1Ni=1NL(yi,f(xi))] E [ 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ] 。因此,要让上面的不等式成立的话,以下等式必须成立:
E[L(Y,f(X))]=E[1Ni=1NL(yi,f(xi))] E [ L ( Y , f ( X ) ) ] = E [ 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ]

上面这个等式是成立的吗?答案是肯定的!因为这里的随机变量 L(yi,f(xi)) L ( y i , f ( x i ) ) ,彼此之间不仅独立,而且是同分布的,它们都可以看成是随机变量 L(Y,f(X)) L ( Y , f ( X ) ) 的样本,因此满足 E[L(Y,f(X))]=E[L(yi,f(xi))] E [ L ( Y , f ( X ) ) ] = E [ L ( y i , f ( x i ) ) ] ,于是就有:
E[1Ni=1NL(yi,f(xi))]=1NE[i=1NL(yi,f(xi))]=1Ni=1NE[L(yi,f(xi))]=1Ni=1NE[L(Y,f(X))]=E[L(Y,f(X))] E [ 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ] = 1 N E [ ∑ i = 1 N L ( y i , f ( x i ) ) ] = 1 N ∑ i = 1 N E [ L ( y i , f ( x i ) ) ] = 1 N ∑ i = 1 N E [ L ( Y , f ( X ) ) ] = E [ L ( Y , f ( X ) ) ]

  另外一个值得说的问题是作者最后提到的,书中讨论的泛化误差上界是在假设空间包含有限个函数的前提下求得的,而对于一般的假设空间,如何求解其泛化误差上界,作者并没有提及。对此,笔者打算简单叙述一下,算是对书中内容的一个补充。
  对于一般的假设空间而言,其中的函数个数 d d 可能是无穷大,这样一来,书中的下列不等式:
R(f)R(f)^+ε(d,N,δ)

右边将会变得非常大,作为一个上界是无意义的。要解决这个问题,需涉及到VC维(Vapnik-Chervonenkis Dimension)理论,这里我们不深入细节,读者可阅读文末列出的参考文献自行了解,我们只给出最后的结论。
  对于一般的假设空间 H H ,其泛化误差上界可通过下列不等式叙述:
R(f)R(f)^+Ω(N,H,δ)

其中, Ω(N,H,δ)=8Nln4mH(2N)ε Ω ( N , H , δ ) = 8 N ln ⁡ 4 m H ( 2 N ) ε mH m H 是增长函数(growth function),由于增长函数一般不太容易计算, 可以进一步用VC维表示它的上界: mH(N)Ndvc m H ( N ) ≤ N d v c ,因此, Ω(N,H,δ)8Nln4((2N)dvc)ε Ω ( N , H , δ ) ≤ 8 N ln ⁡ 4 ( ( 2 N ) d v c ) ε
  以上就是一般假设空间的泛化误差上界,这个结论非常宝贵,因为它证明了机器学习在理论上的可行性。不过,因为这个上界具有广泛的一般性,推导过程中多次放大,最终得到的上界非常松,实际应用的意义主要在其相对值而非绝对值。


参考文献

[1] http://www.flickering.cn/machine_learning/2015/04/vc维的来龙去脉/
[2] http://freemind.pluskid.org/series/vc-theory/
[3] https://www.52ml.net/20080.html
[4] https://sunoonlee.github.io/2017/07/generalization-error-bound/
以上为本文的全部参考文献,对原作者表示感谢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值