统计学习理论的数理基础1

统计学习(Statistical learning)是目前人工智能领域最为活跃的一个分支,其理论基础是统计学习理论(Statistical learning theory,以下有时会简称SLT):一种以数理统计为数学基础,研究是否可以以及如何从经验数据中学习普遍概念的理论。

目前诸多机器学习相关的初级书籍中,重点都放在了对各种模型的探讨,而对统计学习理论部分,要么是不涉及,要么是简要几页草草描述一下,这种不成体系的论述无法令读者尤其是机器学习的初学者对统计学习的基础理论形成系统化认知。

所以我阅读了一些SLT相关的论文,并对SLT的基础部分进行了一个系统化学习,这篇文章是我对SLT数理基础的整理和总结。

这篇文章目标是对于统计学习理论进行一个概述,在这个概述中,将始终保持简洁及易读,并尽量将SLT基础部分的系统脉络梳理清楚,给出SLT的一些基础但十分重要的结论。

虽然不希望数学公式成为各位阅读本文的障碍,但是想要完全抛弃数学语言,又可以明确阐述SLT是不可能的,因此文章中会不可避免存在一些相对严格的数学描述、公式及证明。读者只要具有本科工科的数学水平,即可以无障碍阅读此文。

1 统计学习的定义及框架

1.1 目标

我们先来相对严格的描述,统计学习的目标是什么。

现设存在以下实体:


  1. 集合
XEEtn53gTgW1IDD54Qpq+ewEd34Aqsi+bqdEyIgAAAAASUVORK5CYII=,称为输入空间,集合 hzpP4j3l26669OZAAAAAElFTkSuQmCC,称为输出空间
XEEtn53gTgW1IDD54Qpq+ewEd34Aqsi+bqdEyIgAAAAASUVORK5CYII=hzpP4j3l26669OZAAAAAElFTkSuQmCC的联合概率分布 MbKQUh3gfwzIJDFJBwiYACBQpkdjnj72m3rFy5Uho0aKAam0FRn1IQtAQ8fvy4epiBlpLxMGPsrSRMBHhEQJkyZdTzaxAAmJByEJJw7v9+SQtCCCC0IFgQQuCBEJhgI8GCEAIPhMAEGwkWhBB4IAQm2EiwIITAAyEwwUaCBSEEHgiBCTYSQgDCPxhy2ZsJNhNAAAAAAElFTkSuQmCC
XEEtn53gTgW1IDD54Qpq+ewEd34Aqsi+bqdEyIgAAAAASUVORK5CYII=hzpP4j3l26669OZAAAAAElFTkSuQmCC的映射, hDCztq4R0C0Adyy9wt21vgX3v3jgPwLTlDJRg2ISmjofxygGBoaEA2Ieh5QzCLNIRoQxTygmDk6QzQginlAMXN0hmhAFPOAYuboDNGAKOYBxcz5DxHueZvDQN23AAAAAElFTkSuQmCC,其中 zJD+qjVfp0gAAAABJRU5ErkJggg==
定义在 XEEtn53gTgW1IDD54Qpq+ewEd34Aqsi+bqdEyIgAAAAASUVORK5CYII=hzpP4j3l26669OZAAAAAElFTkSuQmCCH1KfPWWD1sxmUxQLpcxGAxwfX1NNQgEAsbTMq7bScTfNzPqMQc+x8DhGc4xp+K4QFwrDk5+AatvkW7u57c0AAAAAElFTkSuQmCC上的函数 c6oWmIwZWfv8FQBqEPJOrHnz5n7pOLIa0c26ATjaFLBS8w5l8GG3vwZAN4fk9Q0dC3gADJ2zDsqdegAMymMJnUV5AAydsw7KnXoADMpjCZ1FeQAMnbMOyp16AAzKYwmdRXkADJ2zDsqdegAMymMJnUV5AAydsw7KnXoADMpjCZ1FeQAMnbMOyp16AAzKYwmdRf0P0UIHyEVchXsAAAAASUVORK5CYII=,其中 L7voARX7TbglmmHkAAAAASUVORK5CYII=表示实数集合

统计学习的终极目标是找一个映射H1KfPWWD1sxmUxQLpcxGAxwfX1NNQgEAsbTMq7bScTfNzPqMQc+x8DhGc4xp+K4QFwrDk5+AatvkW7u57c0AAAAAElFTkSuQmCC,使得AG8Kjm6wyEQiAAAAAElFTkSuQmCC的期望最小。所以,统计学习本质上是一个最优化问题,用数学语言描述,统计学习的目标找到下面的映射:
TMEDIGOQsBIuaOm2wZrCBgCdUfASLnuM2T9MwQMgY5CwEi5o6bbBmsIGAJ1R8BIue4zZP0zBAyBjkLgf93QzkZQJRbYAAAAAElFTkSuQmCC

1.2 最优解示例

注意假设我们知道$X$,$Y$,$P$和$L$的具体形式,那么统计学习则是根本不必要的,因为这本身变成了一个数学上的最优化问题,我们先忽略这个问题,并通过几个例子,建立对这个理论目标的直观认识。

例1:AG8Kjm6wyEQiAAAAAElFTkSuQmCC为常数函数yxSnuTh+RjMAAAAASUVORK5CYII=

根据期望的定义可知,此情况下$L$的期望$E(L(x,y,f))$亦退化为常函数恒等于0,因此问题变得十分trivial,只要随便取一个映射,如$f(x)=0$,即是目标映射

例2:A4CHCECuVxwPsDHEoIjPUyVI4AAAAASUVORK5CYII=AO+Fn32t0LtgAAAAAElFTkSuQmCCABwkKwRLTIsVAAAAAElFTkSuQmCC,且已知对于任意LFNu759+8a0adNi9OjRHZzS8gkQIECAAAECBAiUK1Czzn250zM6AQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4wH8AWc1uF6GjtYcAAAAASUVORK5CYII=f0pKCjo2siIK3p2jW4jT1wFsUlgEpggAUFzGWESmCABQXMZYRKYIAFBcxlhEpggAUFzGWESmCABQXMZYRKYIAFBcxlhgsD+AXZSBYxSIkMaAAAAAElFTkSuQmCC<

此时,输入和输出之间的关系是完全确定的,不存在随机性。由$L$的定义可知$L\ge0$,因此只要取$f(x)=x^2$即可令$L$处处为0,因此期望也自然是0。此时$f(x)=x^2$就是最优解。

例3:A4CHCECuVxwPsDHEoIjPUyVI4AAAAASUVORK5CYII=AO+Fn32t0LtgAAAAAElFTkSuQmCCABwkKwRLTIsVAAAAAElFTkSuQmCC,且已知对于任意LFNu759+8a0adNi9OjRHZzS8gkQIECAAAECBAiUK1Czzn250zM6AQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4gHBf8Q0yPQIECBAgQIAAAQJ5BYT7vFLaESBAgAABAgQIEKi4wH8AWc1uF6GjtYcAAAAASUVORK5CYII=uvjyQfmMZFsooMqWTPkTBFTlM5JtoYAqWzLlTxBQlc9ItoUCqmzJlD9BQFU+I9kWCqiyJVP+BAFV+YxkWyigypZM+RMEVOUzkm2hgCpbMuVPEFCVz0i2hQKqbMmUP+EPcVrOjB8+3N4AAAAASUVORK5CYII=,其中B84bO7k+gl5aAAAAAElFTkSuQmCC,即+joB4usQG7wJJmhAAAAAElFTkSuQmCC服从均值为uy0P8N+A9rCr+j5BdpoaZuqsxHXgAAAABJRU5ErkJggg==,方差为yid+AXM7924USP6oAAAAAElFTkSuQmCC的正态分布

这里和例2唯一的不同是,输出中多了一个随机变量。此时:
ya0RSvrRE7HUAGj3GAKGgCGQEwImljmNhrXFEDAEskXAxDLbobGGGQKGQE4ImFjmNBrWFkPAEMgWARPLbIfGGmYIGAI5IWBimdNoWFsMAUMgWwRMLLMdGmuYIWAI5ISAiWVOo2FtMQQMgWwRMLHMdmisYYaAIZATAiaWOY2GtcUQMASyRcDEMtuhsYYZAoZATgiYWOY0GtYWQ8AQyBYBE8tsh8YaZggYAjkh8C8HUrFAGWg2gAAAAABJRU5ErkJggg==
l386rsuYegAAAAAElFTkSuQmCC,则:

不能识别此Latex公式:

\begin{align}
E(L(x,y,f)) &= E((x^2+\epsilon-x^2-\mu)^2) \\
&= E((\epsilon-\mu)^2) \\
&= E(\epsilon^2+\mu^2-2\mu\epsilon) \\
&= E(\epsilon^2)+E(\mu^2)-2E(\mu)E(\epsilon) \\
&= E^2(\epsilon)+Var(\epsilon) + \mu^2 - 2\mu^2 \\
&= \mu^2+\sigma^2+\mu^2-2\mu^2 \\
&= \sigma^2
\end{align}


可以证明这是gePUPrICSSTYQAAAABJRU5ErkJggg==的最小值,所以l386rsuYegAAAAAElFTkSuQmCC是此时的最优解。
例4:ESbd90WyhXlPyf7rX9WhMHHKtXr6axY8ca+ugBAFB5w4PxgaC7LxwI4WsVTB7R8WAQI3JmYFnImudhDlBeXk5Pnjzh1kd9d+3uranWGxQLWNqTB8XCErxEQZYAgtkiKMhmW1iC9RVkCSCYLYKCbLaFJVhfQZYAgtkiKMhmW1iC9RVkCSCYLYKCbLaFJVhfQZYAgtkiKMhmW1iC9RVkCSCYLcJvQl3Zm80OjKQAAAAASUVORK5CYII=zJ4pvjSnx9AAAAAElFTkSuQmCC,当hDCztq4R0C0Adyy9wt21vgX3v3jgPwLTlDJRg2ISmjofxygGBoaEA2Ieh5QzCLNIRoQxTygmDk6QzQginlAMXN0hmhAFPOAYuboDNGAKOYBxcz5DxHueZvDQN23AAAAAElFTkSuQmCCyxSnuTh+RjMAAAAASUVORK5CYII=,否则VU6dOTUcffXSbeda1x9BzVxSBPXq7I3yPGDFCmO45akcmQIAAAQIECPSKQI8F6l65GyclQIAAAQIECBAgUGUBgbrK4E5HgAABAgQIECBQXwICdX19n+6GAAECBAgQIECgygICdZXBnY4AAQIECBAgQKC+BATq+vo+3Q0BAgQIECBAgECVBQTqKoM7HQECBAgQIECAQH0JCNT19X26GwIECBAgQIAAgSoLCNRVBnc6AgQIECBAgACB+hIQqOvr+3Q3BAgQIECAAAECVRYQqKsM7nQECBAgQIAAAQL1JSBQ19f36W4IECBAgAABAgSqLCBQVxnc6QgQIECAAAECBOpL4H9DqrlEjQvyAgAAAABJRU5ErkJggg==,联合概率分布Lz3e3UIflD9Qwec8juBnZLW3r0kRhLjrwkQQYggRJCLOPCfxvgNtiWgbnDJAL0AAAAASUVORK5CYII=取值如下:IrAf1hkotcSsGqmAAAAAElFTkSuQmCCGbwpcUkntt4AAAAASUVORK5CYII=gQAAAABJRU5ErkJggg==4N41i+9UUEAAAAABJRU5ErkJggg==
这是一个离散情况,我们现在不经证明给出起最优映射为7cmyZknfMAAAAASUVORK5CYII=,此时AG8Kjm6wyEQiAAAAAElFTkSuQmCC的期望为:
A5V39fp5Ll+JAAAAAElFTkSuQmCC

1.3 通用最优解

上面举了几个在各项条件已知的情况下,最优映射的例子,可以看到,随着$X$,$Y$,$L$,$P$的不同,最优解的形式也各不相同。那么我们自然会有一个疑问:是否存在一个通用最优解公式,对于任意的$X$,$Y$,$L$,$P$,均可以套用公式得到最优解?答案是存在。

但是直接在如此抽象的定义域上讨论通用最优解,会使得整个推理过于抽象,所以我们对定义域进行一定的限制,将重点放在以下两类常见的统计学习问题:

回归问题(Regression):7OMvJy4UgAAAABJRU5ErkJggg==AO+Fn32t0LtgAAAAAElFTkSuQmCCABwkKwRLTIsVAAAAAElFTkSuQmCC
二分类问题(Binary Classification):7OMvJy4UgAAAABJRU5ErkJggg==zJ4pvjSnx9AAAAAElFTkSuQmCCAC69yoCV9sa0AAAAAElFTkSuQmCC

下面分别分析两类问题的最优解。

1.3.1 回归问题的最优解

在上述回归问题中,我们要求解的目标变成了:
wOfwjuT7jccFgAAAABJRU5ErkJggg==

具体导出最优解的数学过程有点繁琐,所以这里我们用一个非严格但相对直观的方式,推导一下最优解。对严格数学推导过程感兴趣的同学可以自行推导,或参考资料。
首先,由上述公式可以看出,这里的期望值是一个大于等于0的值,且显然F4vTo0UO99bEa9Bngw9FlVqJECaekXc1DGWE1Kd26HbxkpfQbkyMsSFnc6jEYJpOUBc8u0LSlSpVSjOT5gdsKUEwekH3StYMm4pKxCKGeCNvtxenDOadnYV+krYoWLSrVqlWzfd+EtWJ8bI8gnfKJeY5AqoFKvhCN6rZW7mZDfp4LUOmRpYyL2Y9uUIjm4gUowoLlsXMfyFUTXFAUie5afuan0705BqlTgmae4YDXHDAg9Zqjhp7nHDAg9ZylhqDXHDAg9Zqjhp7nHDAg9ZylhqDXHDAg9Zqjhp7nHDAg9ZylhqDXHDAg9Zqjhp7nHDAg9ZylhqDXHDAg9Zqjhp7nHDAg9ZylhqDXHDAg9Zqjhp7nHDAg9ZylhqDXHPgfUaLcyO032dIAAAAASUVORK5CYII=。因此我们直观上能感受到,最优解6fOJuG5uS4QAAAABJRU5ErkJggg==应该使得gf4MNqJqEXCMgAAAAASUVORK5CYII=在任何地方都尽量接近5K03a7TZ+2t7c3iMViXFxc4OrqitFCf8LZYYIdJthhYp8KsInaf6K+AJm4x25ZuEERAAAAAElFTkSuQmCC,这样才能让iIgdKdIL8AEUtBuYb91N8AAAAASUVORK5CYII=尽可能小。
但是由于一般情况下我们认为5K03a7TZ+2t7c3iMViXFxc4OrqitFCf8LZYYIdJthhYp8KsInaf6K+AJm4x25ZuEERAAAAAElFTkSuQmCCOfPh8h84KOiu4HvoDkp2CbiuMvYYAAAAASUVORK5CYII=不是确定函数(否则这个函数就直接是最优解了),所以我们用条件概率刻画这个关系,任意给定一对2yxNPo4RjhPSeWdnB3C33wKBz83NBXd3d5pSP57zZ6D8+Ep+sCADRQCYDBQGCt2MMaYwpjCm0CHAmEKHE9MUxhTGFDoEGFPocGKawpjCmEKHAGMKHU5MUxhT6JjyHzEf2H1OoZpwAAAAAElFTkSuQmCC,其对应的5K03a7TZ+2t7c3iMViXFxc4OrqitFCf8LZYYIdJthhYp8KsInaf6K+AJm4x25ZuEERAAAAAElFTkSuQmCC服从:
aohS+pl8bjpuSBuyaiE8k4s3qeUlVOdLakZ5WCQgEtASEPCJIogEIpKAgC8iwcu0IgEBn+iASCAiCQj4IhK8TCsSEPCJDogEIpKAgC8iwcu0IgEBn+iASCAiCQj4IhK8TCsSEPCJDogEIpKAgC8iwcu0IgEBn+iASCAiCfwHllx7zlFEYU4AAAAASUVORK5CYII=
而这个条件概率,可以对联合概率边缘化导出:
ZjJCEBAEBAFnBIRknaGSjoKAICAI+CMgJOuPmYwQBAQBQcAZgf8BJ+ApE+9TgAMAAAAASUVORK5CYII=
而要想令iIgdKdIL8AEUtBuYb91N8AAAAASUVORK5CYII=尽可能小,直觉上我们可以让+llpVn+uZ7fd6bOjMv0Ic0AAAAASUVORK5CYII=Hi172tsXHx6OgoOC11qE48q2fayf6DYwu5fqa6B8n88ELSQATExMYGRnhzJ6Xl8d1FiWy+fl5Bkb1WUJCApcXH7VPj+TfWtB3GUcBE+6UAqaACQkIw5XCFDAhAWG4UpgCJiQgDFcKU8CEBIThSmEKmJCAMFwpTAETEhCGK4UpYEICwnClMAVMSEAYrhQmBPYDAvt7fZ6sN2EAAAAASUVORK5CYII=5K03a7TZ+2t7c3iMViXFxc4OrqitFCf8LZYYIdJthhYp8KsInaf6K+AJm4x25ZuEERAAAAAElFTkSuQmCC的条件期望(实际上数学严格证明结论也是如此):
r7+FSEgBBoDwGRqfawVc1CQAgIASEgBITAEEBAZGoIDLI+UQgIASEgBISAEGgPAZGp9rBVzUJACAgBISAEhMAQQEBkaggMsj5RCAgBISAEhIAQaA8Bkan2sFXNQkAICAEhIASEwBBA4P8AECgblLaCg70AAAAASUVORK5CYII=
也就是说回归问题的最优解是输入值的条件期望

1.3.2 二分类问题的最优解

二分类问题的最优解分析与回归问题类似,但是要简单很多,这得益于二分类问题的输出空间要更简单一些。下面具体看一下:

与分析回归类似,我们先代入已知条件,写出优化目标:
vhoNNGnSJLfxxhv74SEvjz76aHfnnXc6OhsiI4noWXvttd3EiRNHAQKNQQgIgQFBQETPgEyEXkMICAEhIASEgBAQAkJACAgBISAEhIAQEAJtERDR0xZBXS8EhIAQEAJCQAgIASEgBISAEBACQkAICIEBQUBEz4BMhF5DCAgBISAEhIAQEAJCQAgIASEgBISAEBACbREQ0dMWQV0vBISAEBACQkAICAEhIASEgBAQAkJACAiBAUFARM+ATIReQwgIASEgBISAEBACQkAICAEhIASEgBAQAm0R+H810qY4XkIr7QAAAABJRU5ErkJggg==
上面的期望可以将联合概率分布改写为条件概率分布形式:
AxGA7bQt9jMAAAAASUVORK5CYII=
同样我们来非严格的分析一下这个式子如何取最小值。注意这里p1BcXZ2tviuFoKokpiCUGH1NnxF5rAnocxi401ISGBJqiW3liP4MQnVLDo6WrfKykiir6+PqqqqGPS1a9fqXtEtKLoWdA4gQOxnAOnPH5EssY39DlUYQK1Zs0bqquHBSXlh0CEzOIOANdysyZzhEBv0gMmcQcAabtZkznCIDXrAZM4gYA03azJnOMQGPfALeaF9jDFHB8IAAAAASUVORK5CYII=可能的取值只有0和1,所以Tp03X3qZ+7m422jfIUeDYa2+yjFHhmW9RGeQo8G41t9lEKPLMtaqM8BZ6Nxjb7KAWe2Ra1UZ4Cz0Zjm32UAs9si9ooT4Fno7HNPkqBZ7ZFbZSnwLPR2GYfpcAz26I2yvsPWuirqm4py08AAAAASUVORK5CYII=z5M2uubtu2TXF8YqnSRpbj4x+Euf6jGy3vhfneqVOnaPXq1exbWLX18uVL9m3Qxo0bVeXk5+5aENCZrARPZ4BoUUeCp8VaOpOV4OkMEC3qSPC0WEtnshI8nQGiRR0JnhZr6UxWgqczQLSoI8HTYi2dyUrwdAaIFnUkeFqspTNZCZ7OANGijgRPi7V0JvsPIsBOqhS0+BkAAAAASUVORK5CYII=的取值一定是一个0一个1,所以按直觉来说一个合理的推断是无论何时,我们希望让被积函数部分尽可能小,具体来说:

如果8AAAAASUVORK5CYII=,我们希望zdm23GjTXVO8vwf8BjjWzuaqhoVEAAAAASUVORK5CYII=wHjekFE7sS2hAAAAABJRU5ErkJggg==,即令XYYWbtcgfCgAAAABJRU5ErkJggg==
如果8AAAAASUVORK5CYII=,我们希望wCtHCa5CS8OGwAAAABJRU5ErkJggg==AQE+zkQakHuKAAAAAElFTkSuQmCC,即令OrVq6znpGcbHZF67NgxVthNaYOYDTkzGFYkA8URshI9pra2NpaitP6gAD0gkOjs7Kx5rrF9QkXhlg8FpucLohmw1WxSkQy8E0A2QptHRUWxFGWomBpbET9egNrZsmWLqgozxXO8KZ89e5YdktmzZ5syZUJ9o1rAx7obEIL3CZD6548WtNjG+wZUGoj18PDQMnXCfGt2MiYMEgI4KskQgATugiRDkiEQAgK5IiNDkiEQAgK5IiNDkiEQAgK5IiNDkiEQAgK5IiNDkiEQAgK5IiNDIDL+AxDqKJvwREWxAAAAAElFTkSuQmCC

另外我们注意到+fkxitpeHg4Vq5cqQSWNlwO2FFgzt5vAnZ2RN3NnsmwuzHibH9Mhp0dUXezZzLsbow42x+TYWdH1N3smQy7GyPO9ucfVlSVjJMfbCgAAAAASUVORK5CYII=是一个大于等于0的常数,所以我们只要在wAYC4BEVXrfSQAAAABJRU5ErkJggg==dBsoyRoIgTKXf5v9DyHvG6qBVITHAAAAAElFTkSuQmCC选择较大的即可,即:
oZYdkNpUNBgAAAABJRU5ErkJggg==
以上最优解叫做贝叶斯分类器,是二分类问题的理论最优分类器,也是平均意义下统计学习所能达到的分类器上限

1.4 统计学习

下面我们严格定义统计学习。为了简单起见,从现在起,我们所有的讨论都围绕二分类问题展开,所得到的各种结论,理论上都可以推广到一般化的问题,但是在这里就不再从一般意义上进行推导,而是默认将问题限定在二分类问题。

首先,我们给上面到处都用到的那个期望gePUPrICSSTYQAAAABJRU5ErkJggg==起一个名字:风险,用fn0dGFrPRaKTLeGlpCSMjI9xlJCBEOrKaSFBlMlkeWCAQgE6no88YMqLG4+MjWltbUVdXl3eeVcbz83NsbGyUXL6MeRKJRJbs+fkZu7u7tImGhgZ2smg0CpfLBdI1+V4x1dbWBrlcDr1eT79lTKjJgt7b28PAwAA0Gg1OT08xNjYGpVLJbYOwDYLIFovFqHRko3R2dmabqTjUrBOv8OWPoa4Qj7sbq0lU1iKuJiEvY1XU5GXkZeQ3SFU8wMv492X8BWRh+m5TUWM7AAAAAElFTkSuQmCC表示。注意在其他条件已知的情形下,fn0dGFrPRaKTLeGlpCSMjI9xlJCBEOrKaSFBlMlkeWCAQgE6no88YMqLG4+MjWltbUVdXl3eeVcbz83NsbGyUXL6MeRKJRJbs+fkZu7u7tImGhgZ2smg0CpfLBdI1+V4x1dbWBrlcDr1eT79lTKjJgt7b28PAwAA0Gg1OT08xNjYGpVLJbYOwDYLIFovFqHRko3R2dmabqTjUrBOv8OWPoa4Qj7sbq0lU1iKuJiEvY1XU5GXkZeQ3SFU8wMv492X8BWRh+m5TUWM7AAAAAElFTkSuQmCCH1KfPWWD1sxmUxQLpcxGAxwfX1NNQgEAsbTMq7bScTfNzPqMQc+x8DhGc4xp+K4QFwrDk5+AatvkW7u57c0AAAAAElFTkSuQmCC的函数,即:
AAAAAAElFTkSuQmCC
因此我们上述目标可以简化成:
dTZl12CRQGQkY+CsjR3uLSaDuJGDgr7spsw6bBCojgX8AxOnk+yNU5iUAAAAASUVORK5CYII=
上文可以知道,如果我们知道联合概率分布MbKQUh3gfwzIJDFJBwiYACBQpkdjnj72m3rFy5Uho0aKAam0FRn1IQtAQ8fvy4epiBlpLxMGPsrSRMBHhEQJkyZdTzaxAAmJByEJJw7v9+SQtCCCC0IFgQQuCBEJhgI8GCEAIPhMAEGwkWhBB4IAQm2EiwIITAAyEwwUaCBSEEHgiBCTYSQgDCPxhy2ZsJNhNAAAAAAElFTkSuQmCC,则可以通过数学计算直接导出最优解:贝叶斯分类器。因此也就不需要统计学习什么的了,但是现实情况是,我们往往不知道,也无法通过什么方法观测到bdsWNHleMSFRasgTrat29fzG2PKyeTOWX3NzrB0oPn9PPkyZMTyxqvgSLiplC2x3sHMF7UYCKBC9XxvOned1qAx0eaRSgkr960wR6yNYVeE1ce+krn0G8Q5CJ3+zptwOsXGTp0cKebv1MFCLmDHjtUQ5MvXYNcwesYFOpVOKYNeDbMyw4JdsaMGVFPh6kCg82jgFA1qWojB+U1kj9vwPSz3COtwJs8AufkIRDtJE0ivVChQjm5dOBatDpWrVoljRo1Us1Dr9udVuDxFvBPnDihHjOgnFQ8ZqQNYQ9DHDaJvFy5cupp0o9S0w68TVD+T7ZD4C2dRgh8CLwlBCyZDSM+BN4SApbMhhEfAm8JAUtmw4gPgbeEgCWzYcSHwFtCwJLZMOItAf8fyYXZm5q2LI4AAAAASUVORK5CYII=,而只可以观测到一个可数但无穷(现实中往往是又穷的,但这里我们暂时放宽这个条件)的独立无偏样本:XdooeALykWvaloxEJACAgBISAEwiEgUgyHn54WAkJACAiBCCEgUoyQMDUVISAEhIAQCIeASDEcfnpaCAgBISAEIoSASDFCwtRUhIAQEAJCIBwCIsVw+OlpISAEhIAQiBACIsUICVNTEQJCQAgIgXAIiBTD4aenhYAQEAJCIEIIiBQjJExNRQgIASEgBMIhIFIMh5+eFgJCQAgIgQghIFKMkDA1FSEgBISAEAiHgEgxHH56WggIASEgBCKEwP8BwMaGB49WiAgAAAAASUVORK5CYII=,我们是否有某种可靠的方式,去得到或逼近贝叶斯分类器。

严格来说,(二分类)统计学习是这样一个问题:


统计学习

已知输入空间7OMvJy4UgAAAABJRU5ErkJggg==,输出空间zJ4pvjSnx9AAAAAElFTkSuQmCC,损失函数xvYAAAAASUVORK5CYII=。另存在一固定但未知且不可直接观测联合概率分布D5xs2ZtcEYbyAAAAAElFTkSuQmCC,以及可数但任意大的iid(独立同分布)抽样CAgUZIfdlIpRUAEREAERKDUE5AoKfUmVgVFQAREQAREID8ISJTkh51UShEQAREQAREo9QT+Dw1Shgd5zBfsAAAAAElFTkSuQmCC。设x9t7624GH1QF+SZAAAAAElFTkSuQmCCLz3e3UIflD9Qwec8juBnZLW3r0kRhLjrwkQQYggRJCLOPCfxvgNtiWgbnDJAL0AAAAASUVORK5CYII=下的贝叶斯分类器。

现给出一个函数空间WzQ4jS78ubRR7fn7G1dUVnav7+3vGuHZyRlYPETEajbi5uflx+TJ1980Z+TbFYjG0Wq2VbxQpSNaQ1WqF0+kEh8NhqrG8tzX6f1xxwwOs2EFoshhZjBsJsAFhA8IG5CAZ+E8xfgK79KZuinPTzQAAAABJRU5ErkJggg==(称为假设空间),和从WzQ4jS78ubRR7fn7G1dUVnav7+3vGuHZyRlYPETEajbi5uflx+TJ1980Z+TbFYjG0Wq2VbxQpSNaQ1WqF0+kEh8NhqrG8tzX6f1xxwwOs2EFoshhZjBsJsAFhA8IG5CAZ+E8xfgK79KZuinPTzQAAAABJRU5ErkJggg==中选择分类器算法,使得当OV8BlUxfAVVAJROQLKccqoBKJiBZTjlUAZVMQLKccqgCKpmAZDnlUAVUMgHJcsqhCqhkApLllEMVUMkEJMsphyqgkglIlvsHlMQOjK3IrNcAAAAASUVORK5CYII=时,算法从WzQ4jS78ubRR7fn7G1dUVnav7+3vGuHZyRlYPETEajbi5uflx+TJ1980Z+TbFYjG0Wq2VbxQpSNaQ1WqF0+kEh8NhqrG8tzX6f1xxwwOs2EFoshhZjBsJsAFhA8IG5CAZ+E8xfgK79KZuinPTzQAAAABJRU5ErkJggg==中选择的分类器的风险依概率收敛到贝叶斯分类器的风险,即对于任意+9wp+AQPNkH2hzJvUAAAAAElFTkSuQmCC,由算法选择的81rMfaIgI60AAAAASUVORK5CYII=满足:
wVriTKgq55a4QAAAABJRU5ErkJggg==


注意,以上定义是一个非常严苛的定义,在定义一下,我们要求我们的算法在样本无限多时能以任意大的概率和任意小的差距逼近最优分类器且对联合概率分布没有任何假设。这是我们最理想的统计学习,但实际中,由于达到这个目标非常困难,所以我们可能会退而求其次寻求一些更宽松的目标。

这一章节,我们通过数学方式严格定义了统计学习,并给出了最理想的情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值