统计学习(Statistical learning)是目前人工智能领域最为活跃的一个分支,其理论基础是统计学习理论(Statistical learning theory,以下有时会简称SLT):一种以数理统计为数学基础,研究是否可以以及如何从经验数据中学习普遍概念的理论。
目前诸多机器学习相关的初级书籍中,重点都放在了对各种模型的探讨,而对统计学习理论部分,要么是不涉及,要么是简要几页草草描述一下,这种不成体系的论述无法令读者尤其是机器学习的初学者对统计学习的基础理论形成系统化认知。
所以我阅读了一些SLT相关的论文,并对SLT的基础部分进行了一个系统化学习,这篇文章是我对SLT数理基础的整理和总结。
这篇文章目标是对于统计学习理论进行一个概述,在这个概述中,将始终保持简洁及易读,并尽量将SLT基础部分的系统脉络梳理清楚,给出SLT的一些基础但十分重要的结论。
虽然不希望数学公式成为各位阅读本文的障碍,但是想要完全抛弃数学语言,又可以明确阐述SLT是不可能的,因此文章中会不可避免存在一些相对严格的数学描述、公式及证明。读者只要具有本科工科的数学水平,即可以无障碍阅读此文。
1 统计学习的定义及框架
1.1 目标
我们先来相对严格的描述,统计学习的目标是什么。
现设存在以下实体:
集合
与 的联合概率分布
到 的映射, ,其中
定义在 , 及 上的函数 ,其中 表示实数集合
统计学习的终极目标是找一个映射,使得的期望最小。所以,统计学习本质上是一个最优化问题,用数学语言描述,统计学习的目标找到下面的映射:
1.2 最优解示例
注意假设我们知道$X$,$Y$,$P$和$L$的具体形式,那么统计学习则是根本不必要的,因为这本身变成了一个数学上的最优化问题,我们先忽略这个问题,并通过几个例子,建立对这个理论目标的直观认识。
例1:为常数函数
根据期望的定义可知,此情况下$L$的期望$E(L(x,y,f))$亦退化为常函数恒等于0,因此问题变得十分trivial,只要随便取一个映射,如$f(x)=0$,即是目标映射
例2:,,,且已知对于任意有<
此时,输入和输出之间的关系是完全确定的,不存在随机性。由$L$的定义可知$L\ge0$,因此只要取$f(x)=x^2$即可令$L$处处为0,因此期望也自然是0。此时$f(x)=x^2$就是最优解。
例3:,,,且已知对于任意有,其中,即服从均值为,方差为的正态分布
这里和例2唯一的不同是,输出中多了一个随机变量。此时:
取,则:
不能识别此Latex公式:
\begin{align}
E(L(x,y,f)) &= E((x^2+\epsilon-x^2-\mu)^2) \\
&= E((\epsilon-\mu)^2) \\
&= E(\epsilon^2+\mu^2-2\mu\epsilon) \\
&= E(\epsilon^2)+E(\mu^2)-2E(\mu)E(\epsilon) \\
&= E^2(\epsilon)+Var(\epsilon) + \mu^2 - 2\mu^2 \\
&= \mu^2+\sigma^2+\mu^2-2\mu^2 \\
&= \sigma^2
\end{align}
可以证明这是的最小值,所以是此时的最优解。
例4:,,当,,否则,联合概率分布取值如下:,,,
这是一个离散情况,我们现在不经证明给出起最优映射为,此时的期望为:
1.3 通用最优解
上面举了几个在各项条件已知的情况下,最优映射的例子,可以看到,随着$X$,$Y$,$L$,$P$的不同,最优解的形式也各不相同。那么我们自然会有一个疑问:是否存在一个通用最优解公式,对于任意的$X$,$Y$,$L$,$P$,均可以套用公式得到最优解?答案是存在。
但是直接在如此抽象的定义域上讨论通用最优解,会使得整个推理过于抽象,所以我们对定义域进行一定的限制,将重点放在以下两类常见的统计学习问题:
回归问题(Regression):,,
二分类问题(Binary Classification):,,
下面分别分析两类问题的最优解。
1.3.1 回归问题的最优解
在上述回归问题中,我们要求解的目标变成了:
具体导出最优解的数学过程有点繁琐,所以这里我们用一个非严格但相对直观的方式,推导一下最优解。对严格数学推导过程感兴趣的同学可以自行推导,或参考资料。
首先,由上述公式可以看出,这里的期望值是一个大于等于0的值,且显然。因此我们直观上能感受到,最优解应该使得在任何地方都尽量接近,这样才能让尽可能小。
但是由于一般情况下我们认为对不是确定函数(否则这个函数就直接是最优解了),所以我们用条件概率刻画这个关系,任意给定一对,其对应的服从:
而这个条件概率,可以对联合概率边缘化导出:
而要想令尽可能小,直觉上我们可以让取是的条件期望(实际上数学严格证明结论也是如此):
也就是说回归问题的最优解是输入值的条件期望。
1.3.2 二分类问题的最优解
二分类问题的最优解分析与回归问题类似,但是要简单很多,这得益于二分类问题的输出空间要更简单一些。下面具体看一下:
与分析回归类似,我们先代入已知条件,写出优化目标:
上面的期望可以将联合概率分布改写为条件概率分布形式:
同样我们来非严格的分析一下这个式子如何取最小值。注意这里可能的取值只有0和1,所以和的取值一定是一个0一个1,所以按直觉来说一个合理的推断是无论何时,我们希望让被积函数部分尽可能小,具体来说:
如果,我们希望且,即令
如果,我们希望且,即令
另外我们注意到是一个大于等于0的常数,所以我们只要在与选择较大的即可,即:
以上最优解叫做贝叶斯分类器,是二分类问题的理论最优分类器,也是平均意义下统计学习所能达到的分类器上限。
1.4 统计学习
下面我们严格定义统计学习。为了简单起见,从现在起,我们所有的讨论都围绕二分类问题展开,所得到的各种结论,理论上都可以推广到一般化的问题,但是在这里就不再从一般意义上进行推导,而是默认将问题限定在二分类问题。
首先,我们给上面到处都用到的那个期望起一个名字:风险,用表示。注意在其他条件已知的情形下,是的函数,即:
因此我们上述目标可以简化成:
上文可以知道,如果我们知道联合概率分布,则可以通过数学计算直接导出最优解:贝叶斯分类器。因此也就不需要统计学习什么的了,但是现实情况是,我们往往不知道,也无法通过什么方法观测到,而只可以观测到一个可数但无穷(现实中往往是又穷的,但这里我们暂时放宽这个条件)的独立无偏样本:,我们是否有某种可靠的方式,去得到或逼近贝叶斯分类器。
严格来说,(二分类)统计学习是这样一个问题:
统计学习
已知输入空间,输出空间,损失函数。另存在一固定但未知且不可直接观测联合概率分布,以及可数但任意大的iid(独立同分布)抽样。设为下的贝叶斯分类器。
现给出一个函数空间(称为假设空间),和从中选择分类器算法,使得当时,算法从中选择的分类器的风险依概率收敛到贝叶斯分类器的风险,即对于任意,由算法选择的满足:
注意,以上定义是一个非常严苛的定义,在定义一下,我们要求我们的算法在样本无限多时能以任意大的概率和任意小的差距逼近最优分类器且对联合概率分布没有任何假设。这是我们最理想的统计学习,但实际中,由于达到这个目标非常困难,所以我们可能会退而求其次寻求一些更宽松的目标。
这一章节,我们通过数学方式严格定义了统计学习,并给出了最理想的情况。