分类算法 之 支持向量机–原理+案例+代码
标签(空格分隔): SPARK机器学习
1. 支持向量机的概述
1.1 解决问题的类型
支持向量机(SVM:support vactor machine)用于解决:
(1)分类问题。最初解决了区分两类由n维向量表示的成员的一般性学习问题
(2)回归预测连续型变量。通过引入可选的,经过修改的,包含距离度量的损失函数,SVM可以被用于回归问题。
在分类和回归中应用可以用支持向量分类(SVC)与支持向量回归(SVR)这两个术语来区分。
SVM也是一种监督学习算法,从与标号的训练数据集中建立学习函数,仅需少量训练样本。其函数可以是分类函数(输出是二元的),或者一般回归函数。
1.2 算法逻辑
模型:支持向量机的模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。
学习策略:间隔最大化。可以形式化为一个求解凸二次规划的问题。
1.3 模型的分类
当训练数据线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机,又称硬间隔支持向量机
当训练数据近似线性可分时,通过软间隔最大化,去学习一个线性分类器,即线性支持向量机,也称软间隔支持向量机
当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性向量机。
2.线性分类
2.1 如何分类
线性分类器一定意义上也可以叫感知机。
C1和C2是要区分的两个类别,在二维平面中它们的样本如下图所示。中间的直线就是一个分类函数,它可以将两类样本完全分开。一般的,如果一个线性函数能够将样本完全正确的分开,就称这些数据是线性可分的,否则称为非线性可分的。
什么叫线性函数呢?在一维空间里就是一个点,在二维空间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(Hyper Plane)!
实际上,一个线性函数是一个实值函数(即函数的值是连续的实数),而我们的分类问题(例如这里的二元分类问题——回答一个样本属于还是不属于一个类别的问题)需要离散的输出值,例如用1表示某个样本属于类别C1,而用0表示不属于(不属于C1也就意味着属于C2),这时候只需要简单的在实值函数的基础上附加一个阈值即可,通过分类函数执行时得到的值大于还是小于这个阈值来确定类别归属。 例如我们有一个线性函数
g(x)=wx+b
我们可以取阈值为0,这样当有一个样本xi需要判别的时候,我们就看g(xi)的值。若g(xi)>0,就判别为类别C1,若g(xi)<0,则判别为类别C2(等于的时候我们就拒绝判断)。此时也等价于给函数g(x)附加一个符号函数sgn(),即f(x)=sgn [g(x)]是我们真正的判别函数。
关于g(x)=wx+b这个表达式要注意三点:
一,式中的x不是二维坐标系中的横轴,而是样本的向量表示,例如一个样本点的坐标是(3