Andrew NG机器学习课程笔记（六）

最新推荐文章于 2023-04-26 21:43:23 发布

大兔齐齐

最新推荐文章于 2023-04-26 21:43:23 发布

阅读量1k

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/Datuqiqi/article/details/45875087

版权

机器学习算法专栏收录该内容

15 篇文章 1 订阅

订阅专栏

支持向量机（1）

1.这一节Andrew老师回顾了上一节的朴素贝叶斯，然后提了下神经网络，接着就是重头戏支持向量机了。

支持向量机是一种二分类模型，他的基本模型时定义在特征空间上的间隔最大的线性分类器，间隔最大使他有别于感知机，支持向量机还包括核技巧，这使他成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题。支持向量机的学习算法是求解凸二次规划的最优化算法。

支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机，线性支持向量机，以及非线性支持向量机。简单模型是复杂模型的基础，也是复杂模型的特殊情况。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性支持向量机，又称为硬间隔支持向量机。当训练集近似线性可分时，通过软间隔最大化，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；当训练数据线性不可分时，通过使用核技巧即软间隔最大化，学习线性支持向量机。

Cortes与Vapnik提出线性支持向量机，Boser、Guyon与Vapnik又引入核技巧，提出非线性支持向量机。

2.重新来看逻辑回归，逻辑回归的目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值是负无穷到正无穷，因此sigmoid函数将其映射到（0,1）上，映射后的值被认为是属于y=1的概率。

g也就是sigmoid函数，的图像是

假设函数就是特征属于y=1的概率

当我们要判断一个新来的特征属于哪一类时，只需要算一下h(x)，如果大于0.5，就是1，小于0.5，就是0.也就是说，在逻辑回归中，thetaX越大于0.假设函数就越接近1.换句话说就是学习theta，使得正例的输入远大于0，负例远小于0.

引出支持向量机，他就是

3.函数间隔与几何间隔

给定一个训练样本（xi,yi），x是特征，y是结果标签。i表示第i个样本，我们定义函数间隔如下：

可想而知，当yi=1时，在我们的g(z)定义中，wx+b>=0 ,函数间隔实际上就是|wx+b|,反之亦然。为了使函数间隔最大（更大的信心确认该例是正例还是反例），当y=1时，wx+b应该是个大正数，反之应该是个大负数，因此函数间隔代表了我们认为特征是正例还是反例的确认度。

继续考虑w和b，如果同时增加w和b，比如在两者前面都乘以2，那么所有点的函数间隔都会增大二倍，这个对求解问题来说不应该有影响，因为我们要求解的是wx+b=0，同时扩大w和b对结果是无影响的。这样，我们为了限制w和b，需要加入归一化条件。

刚刚我们定义的函数间隔是针对一个样本的，现在我们定义全局样本上的函数间隔

说白了就是在训练样本上分类正例和反例确信度最小的那个函数间隔。