统计学习理论（SLT）与支持向量机（SVM）

最新推荐文章于 2020-05-01 23:24:53 发布

Qunson

最新推荐文章于 2020-05-01 23:24:53 发布

阅读量5.1k

点赞数 1

文章标签：统计学机器学习 svm

0、相关名词解释

内积： <x⋅y>=x1⋅y1+x2⋅y2 <script type="math/tex" id="MathJax-Element-249"> =x_1·y_1+x_2·y_2</script>
超平面：是二维中的直线、三维中的平面的推而广之。它是n维空间的n-1维仿射子空间，能将n维空间分为两部分，对应输出中的两类。
映射：指一个法则，它能够使一个集合中的元素在另一个集合中有确定的元素与之对应。任何一个定义在全体实数上的函数都是实数集到其自身的映射，因此，函数可以看作映射的特殊情况。
线性空间：有一个非空集合V和一个数域P，当……满足加法和乘法规则时，那么V称为数域P上的线性空间。V的右肩可以用整数n表示维数。
欧几里得空间：引入内积运算并且内积计算满足一些性质，这样的线性空间成为欧几里得空间。

1、引言-统计学习理论与机器学习

传统的估计高维函数依赖关系的方法所坚持的信念是：实际问题中总存在较少数目的一些“强特征”，用它们的简单函数（如线性组合）就能较好地逼近未知函数。因此，需要仔细地选择一个低维的特征空间，在这个空间中用常规的统计技术来求解一个逼近。
而SLT&SVM所坚持的信念是：实际问题中存在较大数目的一些“弱特征”，它们“巧妙的”线性组合可较好地逼近未知的依赖关系。因此，采用什么样的“弱特征”并不十分重要，而形成“巧妙的”线性组合更为重要。
在传统方法中，需要人工选择（构造）一些数目相对较少的“巧妙的特征”，而SVM方法则是自动地选择（构造）一些数目较少的“巧妙的特征”。在实际应用中，可通过构造两层（或多层）SVM来选择“巧妙的特征”
机器学习就是从给定的函数集f(x, $\alpha$ )( $\alpha$ 是参数)中,选择出能够最好地逼近训练器响应的函数。机器学习目的可以简单归纳为：给出一组独立的观测样本，在一组函数中求出一个最优函数，使期望的风险最小。模式识别、函数逼近和概率密度估计是三类基本的机器学习问题。
再用有限数量信息解决一个问题时，要尽量避免将一个更为一般的问题作为其中间步骤。即意味着当解决模式识别或回归估计问题时，必须设法去“直接”寻找待求的函数，而不是首先估计密度，然后用估计的密度来构造待求的函数。
未知类型的概率分布的数学期望不好计算，只好用样本风险的算术平均来代替数据期望，相应的期望风险最小化也用经验风险最小化来代替。
在某些情况下，误差过小反而导致推广能力下降，这就是过学习问题，神经网络的过学习问题是经验风险最小化原则失败的典型例子。推广性和学习精度是一对不可调和的矛盾，采用复杂的学习机器虽然容易使得学习误差更小,却往往丧失推广性。

2、支持向量机（SVM）的引入

SLT（统计学习理论）被认为是目前针对有限样本估计和预测学习的最佳理论。不同于传统的SLT提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(Structural Risk Minimization)，即SRM准则。那么如何实现SRM准则呢？有以下两种思路：
1、在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集。
2、设计函数集的某种结构使每个子集中都能取得最小的经验风险,然后只需选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。支持向量机方法实际上就是这种思路的实现。
SVM的理论基础比NN更坚实，更像一门严谨的“科学”（三要素：问题的表示、问题的解决、证明）；SVM是严格的数学推理，而NN更依赖于工程技巧；推广能力取决于“经验风险值”和“置信范围值”，NN不能控制两者中的任何一个；NN设计者用高超的工程技巧弥补了数学上的缺陷——设计特殊的结构，利用启发式算法，有时能得到出人意料的好结果。
但是：“我们必须从一开始就澄清一个观点，就是如果某事不是科学，它并不一定不好。比如说，爱情就不是科学。因此，如果我们说某事不是科学，并不是说它有什么不对，而只是说它不是科学。” —— by R. Feynman
课后作业：设计并编程实现一个简单的用于文本分类的SVM。

Qunson

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
统计学习理论（SLT）与支持向量机（SVM）

0基础入门统计学习方法和支持向量机，从高等代数的欧几里得几何空间出发，到线性分类、核函数、VC维理论，步步深入，是笔者打开思路过程，也供其余入门者参考。（高手还望多多指教，错误之处手下留情~）
复制链接

扫一扫