机器学习之SVM支持向量机与核函数(吴恩达机器学习)

1. 支持向量机Support Vector Machines

1.1 介绍

在分类问题中,除了线性的逻辑回归模型和非线性的深度神经网络外,我们还可以应用一种被广泛应用于工业界和学术界的模型—支持向量机,简称SVM,与逻辑回归和神经网络相比,支持向量机在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。

尽管现在深度学习十分流行,了解支持向量机的原理,对想法的形式化、简化、及一步步使模型更一般化的过程,及其具体实现仍然有其研究价值。另一方面,支持向量机仍有其一席之地。相比深度神经网络,支持向量机特别擅长于特征维数多于样本数的情况,而小样本学习至今仍是深度学习的一大难题。
关于支持向量机的简单概念和定义,请参考这篇文章: https://www.zhihu.com/question/21094489/answer/190046611
更详细地了解和推导SVM,请参考以下几篇文章:
https://zhuanlan.zhihu.com/p/40857202
https://zhuanlan.zhihu.com/p/31652569

1.2 从逻辑回归到SVM

下面,我们利用逻辑回归模型,建立简单的支持向量机,来进行对比和讲解。

1.2.1 假设函数

逻辑回归假设函数:

在这里插入图片描述

函数图像如下:

在这里插入图片描述

对于二元分类,目标值只能取2种:y = 1、y = 0;我们对假设函数的希望是,能够尽量准确地对样本进行分类,即:
y = 1时,我们希望z远大于0,
y = 0时,我们希望z远小于0,

1.2.2 损失函数

逻辑回归中的总损失函数:

在这里插入图片描述

其中,每个训练集样本点的损失:

在这里插入图片描述

当y = 1时,我们得到损失的表达式:

在这里插入图片描述

当y = 0时,我们得到

在这里插入图片描述

我们可以画出损失Cost和变量z之间的关系,如下图:

在这里插入图片描述

现在,我们将建立支持向量机,在此处,即画出线段,用于分割二维平面。
如图,对于左图,向量机建立如下:

在这里插入图片描述

1.2.3 SVM数学定义

逻辑回归中,损失函数如下:

在这里插入图片描述

在这里插入图片描述

在这个例子中,我们可以看到:
1.这里的假设函数直接输出的是值0或1,而不是逻辑回归中的概率值。
2.支持向量机的定义类似损失函数,不过比损失函数更进一步,因为其要求min将损失最小化。

1.3 大间距的直观理解

有时候,人们会将把SVM叫做大间距分类器,为什么支持向量机被称为大间距分类器 ?这一小节将直观地介绍其中的含义。我们回顾一下支持向量机的模型定义:

在这里插入图片描述

我们的目标是最小化这个方程,下面我们结合图像说明最小化的过程:

在这里插入图片描述

1.3.1 参数C很大时

在这里插入图片描述

我们将样本点x在坐标系中向量化表示,即x是一条从原点开始,指向(x1,x2)的矢量,x的模长 = x1^2 + x2^2,则我们可以得到一系列样本点坐标图,如下:

在这里插入图片描述

追求最优化方程究竟会带来什么?
答:会带来一条支持向量机的超平面,在二维方程中,超平面即一条直线,我们会得到一条直线,将样本点分割开来,且这条直线满足 即将这个表达式的值取到最小:

在这里插入图片描述

这里,在样本点中,我们可以划出一条满足支持向量机方程的直线:黑色线。这条划分样本点的线在SVM中也叫 决策边界(SVM Decision Boundary)。这条黑线不仅满足数学表达式上的最小属性,从图像上看,黑色线也能满足和样本间的最大距离,这里的最大是指总体最大,这也是支持向量机被称为 大间距分类器(Large margin classifier)的缘由。

当然,当样本上升到3维、4维、N维时,支持向量机就表示一个平面、多维超平面,而不仅仅是一条线。但是同样会满足大间距分类器这样的含义。即保持到样本点间的最大距离。

这里需要说明的是:决策边界可以划出n条,如图中的粉色、绿色、黑色.....但满足最小化方程式的值的边界只有一条,这条边界被称为支持向量机。


1.3.2 参数C较小时

当然,我们上面都是基于假设参数C很大时的情况,那如果C不是很大时,我们就不仅仅要考虑方程式中左边的项,还需要同步考虑右边

在这里插入图片描述

项了。下面我们再看一个例子:

当C很大时,我们的支持向量机画出了一条决策边界:

在这里插入图片描述

此时,又新增一个样本点(位于图中左下角靠近原点),那么为了继续满足支持向量机方程式的定义,我们的决策边界变更了,如图中的粉线:

在这里插入图片描述

但是,需要注意,仅仅由一个样本点导致的决策边界发生大幅改变,是不明智的。此时我可以将原本很大的C变小,这样,我们考虑的就不仅仅是左边的因为C很小的化,这个式子的乘积就会变得较小,对于整个方程式的最小化影响会降低,这时,支持向量机的决策边界就会忽略掉一些异常点影响,即决策界还是会保持在黑线上,而不会划出粉线。因为支持向量机要保证的是总体方程式最小化。

1.3.3 关于参数C

回顾之前的表达式可知,参数C = 1/λ 当C较大时,对应λ较小,即正则化参数较小,可能会导致过拟合,和支持向量机的高方差;当C较小时,对应λ较大,可能导致欠拟合(拟合不够),和支持向量机的高偏差

1.4 大间距的数学原理

1.4.1 向量内积

在这里插入图片描述

为了方便举例,此处以二维向量举例。u、v都是二维向量,它们的内积:

在这里插入图片描述

内积的含义在哪里 ? 图中我们可以用投影和范数(在欧几里得范数中即 = 模长)来表示:

在这里插入图片描述

用文字表示:u和v的内积 = 向量v在向量u上的投影乘以向量向量u的范数(或者反过来表示也一样)

这里需要注意,如图中的第二个图所展示的:当向量u和v角度>90°时,p值为负。

1.4.2 SVM的数学原理

之前支持向量机的方程,写作:

在这里插入图片描述

在数学里面s.t.是subject to 的缩写,意为:使得...满足

在这里插入图片描述
在这里插入图片描述

整个表达式可以转化为如下形式:

在这里插入图片描述

这时再看一个例子:

在这里插入图片描述

在这里插入图片描述

1.5 核函数

回顾我们之前讨论过可以使用高级数的多项式模型来解决无法用直线进行分隔的分类问题:

在这里插入图片描述

为了获取上图中的决策边界,我们的假设函数可能是:的形式,为了方便,我们可以用一系列新的特征值来替换模型中的每一项,譬如:
则假设函数便可以转化为: 这种方法即通过多项式模型的方式构造新特征那么有没有其他方式来构造新特征?有,通过核函数即可完成。

在这里插入图片描述
在这里插入图片描述

如上图所示,特征都可以用similarity(x,l)函数来获取,这里的similarity(x,l)函数即被称为—核函数(kernel function),在本例中我们用核函数中的一种—高斯核函数来举例,即:
地标的作用是什么 ?如果一个样本x距离地标距离接近/等于0,则否则 = 0,于是我们利用样本和地标间的关系来得出了特征f的值。

1.5.1 地标landmark和𝜎

在这里插入图片描述
在这里插入图片描述

看图,可以总结出几点:

在这里插入图片描述

1.5.2 决策边界

假定:假设函数值>=0时预测y = 1,否则y = 0,则通过上面的高斯核函数我们可以算出每个样本点x距离地标l的距离,从而算出每个特征f,从而求出每个样本点的预测值y,即可以正确给每个样本分类,从而得到一条决策边界。

在这里插入图片描述

在这里插入图片描述

1.5.3 核函数2

上一个例子,比较简单地说明了核函数的应用,但是实际情况下,核函数怎么使用呢?地标l又如何选取?

实际情况下,我们会选取和样本点数量同样多的且值相同的地标l

在这里插入图片描述

和之前的一样,如果我们有m个样本,就能得到m+1个特征矩阵f(加了一项f0作为bias)

在这里插入图片描述

得到新的特征后,我们可以写出代价函数的表达式:

在这里插入图片描述

这里可以看到替代了原来的,因为f是计算出来的用于模拟x的特征值。最后一项 实际上的n-可以替换成m,因为这里特征值只有m个。然后,在实际计算的时候, 我们会在之间加一个矩阵M,不同的核函数,M不同,目的在于优化计算和迭代速度。所以最终,正则化项应该是:在此,我们不介绍最小化支持向量机的代价函数的方法,你可以使用现有的软件包(如liblinear,libsvm 等)。在使用这些软件包最小化我们的代价函数之前,我们通常需要编写核函数,并且如果我们使用高斯核函数,那么在使用之前进行特征缩放是非常必要的。
另外,支持向量机也可以不使用核函数,不使用核函数又称为线性核函数( linear kernel),
当我们不采用非常复杂的函数,或者我们的训练集特征非常多而实例非常少的时候,可以采用这种不带核函数的支持向量机。

1.6 使用支持向量机

本节主要是对支持向量机、核函数等概念和使用的一个总结,我就直接copy了。


目前为止,我们已经讨论了SVM 比较抽象的层面,在这个视频中我将要讨论到为了运行或者运用 SVM。你实际上所需要的一些东西:支持向量机算法,提出了一个特别优化的问。但是就如在之前的视频中我简单提到的,我真的不建议你自己写代码来求解参数𝜃,因此由于今天我们中的很少人,或者其实没有人考虑过自己写代码来转换矩阵,或求一个数的平方根等我们只是知道如何去调用库函数来实现这些功能。同样的,用以解决 SVM 最优化

问题的软件很复杂,且已经有研究者做了很多年数值优化了。因此你提出好的软件库和好的软件包来做这样一些事儿。然后强烈建议使用高优化软件库中的一个,而不是尝试自己落实一些数据。有许多好的软件库,我正好用得最多的两个是liblinear 和 libsvm,但是真的有很多软件库可以用来做这件事儿。你可以连接许多你可能会用来编写学习算法的主要编程语言。

在高斯核函数之外我们还有其他一些选择,如:
多项式核函数(Polynomial Kernel)
字符串核函数(String kernel)
卡方核函数( chi-square kernel)
直方图交集核函数(histogram intersection kernel)
等等...

这些核函数的目标也都是根据训练集和地标之间的距离来构建新特征,这些核函数需要满足Mercer's 定理,才能被支持向量机的优化软件正确处理。

1.6.2多类分类问题

假设我们利用之前介绍的一对多方法来解决一个多类分类问题。如果一共有𝑘个类,则我们需要𝑘个模型,以及𝑘个参数向量𝜃。我们同样也可以训练𝑘个支持向量机来解决多类分类问题。但是大多数支持向量机软件包都有内置的多类分类功能,我们只要直接使用即可。

尽管你不去写你自己的SVM 的优化软件,但是你也需要做几件事:

1、是提出参数𝐶的选择。我们在之前的视频中讨论过误差/方差在这方面的性质。

2、你也需要选择内核参数或你想要使用的相似函数,其中一个选择是:我们选择不需要任何内核参数,没有内核参数的理念,也叫线性核函数。因此,如果有人说他使用了线性核SVM(支持向量机),这就意味这他使用了不带有核函数的SVM(支持向量机)。

1.6.3逻辑回归or支持向量机

在两者之间,我们应该如何选择呢?

下面是一些普遍使用的准则:
𝑛为特征数,𝑚为训练样本数。
(1)如果相较于𝑚而言,𝑛要大许多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机。

(2)如果𝑛较小,而且𝑚大小中等,例如𝑛在 1-1000 之间,而𝑚在 10-10000 之间,使用高斯核函数的支持向量机。

(3)如果𝑛较小,而𝑚较大,例如𝑛在 1-1000 之间,而𝑚大于 50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。

值得一提的是,神经网络在以上三种情况下都可能会有较好的表现,但是训练神经网络可能非常慢,选择支持向量机的原因主要在于它的代价函数是凸函数,不存在局部最小值。

今天的SVM 包会工作得很好,但是它们仍然会有一些慢。当你有非常非常大的训练集,且用高斯核函数是在这种情况下,我经常会做的是尝试手动地创建,拥有更多的特征变量,然后用逻辑回归或者不带核函数的支持向量机。如果你看到这个幻灯片,看到了逻辑回归,或者不带核函数的支持向量机。

在这个两个地方,我把它们放在一起是有原因的。原因是:逻辑回归和不带核函数的支持向量机它们都是非常相似的算法,不管是逻辑回归还是不带核函数的SVM,通常都会做相似的事情,并给出相似的结果。但是根据你实现的情况,其中一个可能会比另一个更加有效。但是在其中一个算法应用的地方,逻辑回归或不带核函数的。SVM另一个也很有可能很有效。但是随着 SVM 的复杂度增加,当你使用不同的内核函数来学习复杂的非线性函数时,这个体系,你知道的,当你有多达 1 万(10,000)的样本时,也
可能是 5 万(50,000),你的特征变量的数量这是相当大的。那是一个非常常见的体系,也在这个体系里,不带核函数的支持向量机就会表现得相当突出。你可以做比这困难得多需要逻辑回归的事情。

最后,神经网络使用于什么时候呢?
对于所有的这些问题,对于所有的这些不同体系,一个设计得很好的神经网络也很有可能会非常有效。有一个缺点是,或者说是有时可能不会使用神经网络的原因是:对于许多这样的问题,神经网络训练起来可能会特别慢,但是如果你有一个非常好的SVM 实现包,它可能会运行得比较快比神经网络快很多,尽管我们在此之前没有展示,但是事实证明,SVM 的优化问题,是一种凸优化问题。

因此,好的 SVM优化软件包总是会找到全局最小值,或者接近它的值。对于SVM 你不需要担心局部最优。在实际应用中,局部最优不是神经网络所需要解决的一个重大问题,所以这是你在使用SVM的时候不需要太去担心的一个问题。根据你的问题,神经网络可能会比 SVM慢,尤其是在这样一个体系中,至于这里给出的参考,看上去有些模糊,如果你在考虑一些问题,这些参考会有一些模糊,但是我仍然不能完全确定,我是该用这个算法还是改用那个算法,这个没有太大关系,当我遇到机器学习问题的时候,有时它确实不清楚这是否是最好的算法,但是就如在之前的视频中看到的算法确实很重要。但是通常更加重要的是:你有多少数据,你有多熟练是否擅长做误差分析和排除学习算法,指出如何设定新的特征变量和找出其他能决定你学习算法的变量等方面,通常这些方面会比你使用逻辑回归还是 SVM 这方面更加重要。但是,已经说过了,SVM 仍然被广泛认为是一种最强大的学习算法,这是一个体系,包含了什么时候一个有效的方法去学习复杂的非线性函数。因此,实际上与逻辑回归、神经网络、SVM 一起使用这些方法来提高学习算法,我认为你会很好地建立很有技术的状态。(编者注:当时 GPU 计算比较慢,神经网络还不流行。)

机器学习系统对于一个宽泛的应用领域来说,这是另一个在你军械库里非常强大的工具,你可以把它应用到很多地方,如硅谷、在工业、学术等领域建立许多高性能的机器学习系统。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
好的,下面是创建高斯核函数支持向量机分类器的步骤: 1. 收集数据:收集已经标记好的数据集。 2. 准备数据:将数据集进行归一化处理,使得每个特征的取值范围都在0-1之间。 3. 分析数据:使用数据可视化工具,观察数据的分布情况,选择合适的核函数和参数。 4. 训练模型:使用训练数据集训练高斯核函数支持向量机分类器,得到模型。 5. 测试模型:使用测试数据集测试模型的准确率。 6. 使用模型:使用训练好的模型对新的数据进行分类。 下面给出一个Python实现的示例: ```python from sklearn import svm from sklearn.datasets import make_blobs import matplotlib.pyplot as plt import numpy as np # 生成数据集 X, y = make_blobs(n_samples=50, centers=2, random_state=0, cluster_std=0.6) # 可视化数据集 plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plt.show() # 训练分类器 clf = svm.SVC(kernel='rbf', C=1) clf.fit(X, y) # 可视化分类器 plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plt_svc(clf) plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=200, facecolors='none') plt.show() # 定义绘制分类器函数 def plt_svc(model, ax=None, plot_support=True): if ax is None: ax = plt.gca() xlim = ax.get_xlim() ylim = ax.get_ylim() # 创建网格矩阵 x = np.linspace(xlim[0], xlim[1], 30) y = np.linspace(ylim[0], ylim[1], 30) Y, X = np.meshgrid(y, x) xy = np.vstack([X.ravel(), Y.ravel()]).T P = model.decision_function(xy).reshape(X.shape) # 绘制决策边界和边界间的颜色填充 ax.contour(X, Y, P, colors='k', levels=[-1, 0, 1], alpha=0.5, linestyles=['--', '-', '--']) if plot_support: ax.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1], s=300, linewidth=1, facecolors='none') ax.set_xlim(xlim) ax.set_ylim(ylim) ``` 其中,make_blobs函数用于生成一个随机数据集,svm.SVC函数用于训练高斯核函数支持向量机分类器,plt_svc函数用于绘制分类器的决策边界和支持向量。在这个示例中,我们选择了高斯核函数,参数C=1,得到了一个准确率较高的分类器。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辣椒种子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值