Andrew Ng - SVM【1】最优间隔分类器

最新推荐文章于 2024-07-27 09:54:27 发布

Victor-Gun

最新推荐文章于 2024-07-27 09:54:27 发布

阅读量2.7k

点赞数 1

分类专栏： Algorithms Machine Learning 文章标签： ML 机器学习 SVM 分类器 andrew-ng

本文链接：https://blog.csdn.net/Victor_Gun/article/details/45010471

版权

本文深入探讨Andrew Ng关于SVM的理论，重点在于最优间隔分类器的概念。从间隔的直观理解出发，分析预测的“信心”，并介绍了函数间隔和几何间隔的定义。最终目标是寻找最大化间隔的分类器，以实现更准确和自信的分类预测。

摘要由CSDN通过智能技术生成

Andrew Ng - SVM【1】最优间隔分类器

Ng说，SVM是最好的监督学习算法（因为你用不用，它就那里，现成的）。为了了解SVM，我们首先应该絮叨絮叨怎样用一个较大的间隔将数据划开成类；接着好戏上演，我会讲到最优间隔分类器；然后我会讲一些核函数（Kernel）的知识，这个尤其重要，因为核函数是打通低维和高维通道的关键手段；最后，我将会讲解用SMO算法怎么实现SVM，顺利收关。

从间隔（margins）讲起

1. 对间隔的一个直观的认识

在logistic回归中，对于预测以 $\theta$ 为参在 $x$ （特征向量， $\color{red}{长什么样子呢?}$ ）条件下 $y$ 为1的概率< $p(y=1|x;\theta)$ >,我们会使用模型 $h_\theta(x)=g(\theta^Tx)$ 作为假设。所以当 $h_\theta\geq0.5$ 或者当且仅当 $\theta^Tx\geq0$ 时我们会认为预测结果为1 $\color{red}{(直接将问题扣在二分类？)}$ 。那么我们来考虑一下这个问题，显然 $\theta^Tx$ 越大 $h_\theta(x)=p(y=1|x;\theta)$ 就会越大，因此当我们在这种情况下，将结果预测为1就会非常“自信”。所以直观的理解，当 $\theta^Tx\gg0$ 时，我们会很确定预测的结果为1，而当 $\theta^Tx\ll0$ 的时候则会很肯定y=0。现给定一个训练集，同样，对于训练数据，假设我们可以找到相应的 $\theta$ 使得不论何时，只要 $y=1$ 就有 $\theta^Tx^{(i)}\gg0$ ，只要 $y=0$ 就有 $\theta^Tx^{(i)}\ll0$ ，那么根据这样的 $\theta$ 对相应的新数据做预测就非常简单了。不过理想很丰满，现实很骨感，要找到这样的 $\theta$ 还真不容易。不过有个概念叫函数间隔，可能会给这个理论一个相对好一点的支撑。

2. 对于预测的“信心”做一个分析

看下图，X代表正的训练样例，O代表负的训练样例，我们用一条线（由 $\theta^Tx=0$ 确定的分割超平面）将正负样本分开，对A、B、C三点我们来做个分析。

对于A点，我们会很确定y=1；而相反，对于C点来说，或许根据当前的SH我能说y=1，可是机器学习这种事情，不确定性的东西本来就多，如果SH稍微动一动，可能C的分类就不好说了。因此，当点距离我的分割超平面足够远的时候，我们对数据的预测会很简单。那么，能不能在不同类别之间，真的存在那么一个边界，使我们很自信准确（意思就是离边界足够远）的预测出数据所属类别？几何间隔（geometric margin）粗现。