统计学习方法 = 模型 + 策略 + 算法
1.模型
学习一个什么样的模型是统计学习首先要考虑的问题。在监督学习中,模型就是要学习的条件概率分布或者决策函数。模型的假设空间就是所有可能的条件概率分布或者决策函数的总集合。举个例子就是,如果决策函数是输入变量的线性组合,那么假设空间中就是所有这些线性函数所构成的集合。也就是说,决策函数或者条件概率分布是什么,那么假设空间就是满足这种条件的所有可能性的集合。
本书中称由条件概率表示的模型为概率模型,由决策函数表示的模型为非概率模型。
2.策略
有了模型的假设空间后,下一步要考虑的是按照什么样的准则学习或者选择最优的模型。从假设空间中选取最优模型是统计学习的目标。
首先说明一下损失函数和风险函数。损失函数度量模型一次预测的好坏,风险函数度量平均意义下预测的好坏。不恰当的解释,可以理解损失函数考虑的是当下,风险函数考虑的是长远。
(1)损失函数和风险函数
监督学习问题是在假设空间F中选取模型f作为决策函数,对于给定的输入X,由f(X)给出相应的预测值记为f(X),但是输入X还存在一个真实值,记为Y。既然是预测,那么预测值和真实值可能一样也可能不一样,那么如何度量预测的错误程度呢?这就损失函数或者叫做代价函数就要登场啦。损失函数是f(X)和Y的非负实质函数,我们也给他一个记号:L(Y,f(X))。
那么统计函数只有一种吗,答案是NO!统计学习中有很多中损失函数,下面介绍几种常见的损失函数。
①0-1损失函数
顾名思义,0-1损失函数就是当预测值和真实值相等时记为0,预测值和真实值不等时记为1。函数表示如下:
②平方损失函数
即用真实值减去预测值,然后进行平方运算。函数表示如下:
③绝对损失函数
即真实值减去预测值,然后做绝对值运算。函数表示如下:
④对数损失函数或叫对数似然损失函数
函数表示如下:
损失函数值越小,模型就越好。
下面介绍风险函数,也叫期望损失。
由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望可以表示为:
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失。
学习的目标就是寻求期望风险最小的模型。
根据上面的公式,我们知道期望风险最小学习模型要用到联合分布,但是联合分布是未知的,所以监督学习就称为一个病态问题。
那么如何解决这种病态问题呢?
给定一个训练样本集:
模型f(X)关于训练数据集的平均损失称为经验风险或经验损失,用下面的公式表示:
期望风险Rexp(f)是模型关于概率分布的期望损失,经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定理,当样本容量N足够大,趋于无穷时,可以认为经验风险趋于期望风险。
那么我们就可以用经验风险代替期望风险了吗?答案是NO!这是因为在实际中,数据量不会足够大,数目有限甚至很小,所以用经验风险估计期望风险是不理想的,要对经验风险进行矫正,这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
(2)经验风险最小化和结构风险最小化
①经验风险最小化
在假设空间、损失函数、训练数据集确定的情况下,我们就可以确定经验风险函数式。经验风险最小化的策略认为经验风险最小的模型就是最优模型。也就是说:
当样本容量足够大时,经验风险最小化能保证很好的学习效果,在现实中被广泛采用。但是,如果样本容量较小时,就不能保证很好的学习效果,会产生“过拟合”的现象。
②结构风险最小化
结构风险最小化是为了解决过拟合问题而提出的。结构风险最小化等价于正则化。结构风险在经验风险的基础上,加上了表示模型复杂度的正则化项和罚项。在假设空间、损失函数以及训练样本集确定的情况下,结构风险的定义是:
其中,J(f)为模型的复杂度,是定义在假设空间上的泛函。模型f越复杂,复杂度J(f)就越大。复杂度表示了对复杂模型的惩罚。
λ≥0是系数,用以权衡经验风险和模型复杂度。结构风险小需要经验风险和模型复杂度小。
结构风险小的模型往往对训练数据和未知测试数据有很好的预测效果。
结构风险最小化的策略认为结构风险最小的模型就是最优模型。因此,求解最优模型就是求解最优化问题:
这样,监督学习问题就转化为经验风险或结构风险函数的最优化问题。
3.算法
算法是学习模型的具体计算方法。统计学习基于训练样本集,根据学习策略,从假设空间中选取最优模型,最后需要考虑的是用什么样的计算方法求解最优模型。
这时,统计学习归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
统计学习方法之间的不同,主要来自于其模型、策略、算法的不同。确定了模型、策略、算法,统计学习的方法也就确定了。这也是将其称为统计学习三要素的原因。
总结
统计学习三要素:模型、策略和算法。