参考书:《统计学习方法》——李航
统计学习的三要素为:模型、策略、算法。
写在前面的话:
以下以监督学习为基础来进行论述。
监督学习的
假设:在监督学习当中,我们假设输入和输出的随机变量
和
服从联合概率分布
,训练数据和测试数据被看做是依联合概率分布
独立同分布产生的。
一、模型
在监督学习当中,我们的目的是学习一个由输入到输出的映射,这个映射就是模型。一般来说,模型有两种形式,一种是概率模型
(条件概率分布),另一种形式是非概率模型
(决策函数)。我们根据实际情况和具体的学习方法来决定是用概率模型还是用非概率模型。
二、策略
在介绍策略之前,首先介绍假设空间的概念。假设空间是一集合:由输入空间到输出空间所有映射的集合。
策略的目的是为了让我们找到一个方法,来从众多的假设空间中选择最优的模型。自然而然的,我们想找一个能描述输入到输出最完美的映射。顺着这个思路,首先介绍损失函数和风险函数。
损失函数是用来度量模型一次映射结果的好坏,记作
,这里只举例0-1损失函数来帮助理解:
风险函数(期望损失)是用度量平均意义下模型预测的好坏。也就是对于整个输入输出空间的损失函数的期望。
这里的
需要特别说明一下。在监督学习当中,我们假设输入和输出的随机变量
和
服从联合概率分布
。但是这个分布对于我们来说,是不可知的,如果可知,我们就可以直接通过
来求解
,而不需要使用统计学习方法了。
显然而然,对应我们来说,最好的策略就是找到让风险函数最小的模型。可是呢,风险函数的计算需要用到
,我们对它又不可知,所以监督学习就成了一个病态问题。
既然这样,我们就想,在统计学中有一个大数定律,如果我在输入输出空间中取一个足够大的样本,用这个样本来近似的计算风险函数
。基于这样的想法,我们对于含有N组数据的训练集,定义经验损失函数:
根据大数定律,当N趋近于无穷大的时候,经验风险函数
就趋近于风险函数
。
所以,在样本容量足够大的时候,我们可以用经验风险
最小花的策略来选择最优的模型。
但是在训练样本的数量很有限时,利用经验风险函数
来估算风险函数
的效果并不理想,它很有可能产生一个叫做过拟合的现象。为了防止过拟合现象,结构风险最小化这个策略被提了出来。
结构风险的定义为:
其中,
表示的是模型的复杂度。模型
越复杂,
的值就越大。
是一个大于等于0的系数,用来做一个trade-off的作用,平衡经验损失和模型复杂度的一个系数。可以从这个式子看出来,
起到是一个惩罚项的作用,当模型越复杂,惩罚项越大。它所基于的理论是,当一个模型越复杂,我们认为它的泛化能力越差,越不具有一般性,越容易发生过拟合。
综上,我们在统计学习中的策略一般有两种——经验风险最小化,结构风险最小化。此时,我们就把统计学习问题转为了求解下面目标函数的优化问题:
或者:
三、算法
算法,就是求解上面优化问题的算法。这就需要用到数值优化的知识,哈哈哈,也就是我另一个系列博客的内容~~~。
找到合适的优化算法求解上面的优化问题,即可得到最优模型。