(1)最优超平面的定义:一个超平面,如果它能够将训练样本正确地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离最大,则这个超平面被称作最优超平面。其中,样本中离分类面最近的样本到分类超平面的距离被称作分类间隔。
(2)对于超平面H:g(x)=wx+b=0。求取任意点x到该平面的距离:将该点表示成向量x,则有x=x'+r*w/||w||。式中x'是x在H上的投影向量;r是x到H的垂直距离,w/||w||是w的单位向量。则有g(x)=wx+b=w(x'+r*w/||w||)+b=wx'+b+r**w/||w||=0+r*
*w/||w||=r*||w||。所以,r=|g(x)|\||w||。
线性可分支持向量机
在线性可分的情况下,我们的目的是得到一个超平面g(x)=wx+b=0,使得所有样本都能正确可分。我们知道
(1)对于给定的训练数据集T和超平面wx+b=0,我们设超平面对于任意的样本点()的函数间隔为
。并且,我们认为超平面对于训练集的函数间隔是:所有样本函数间隔的最小值,即
。
(2)函数间隔可以用来表示分类预测的正确性和确信度。但是,当超平面不变时(λ*wx+λb=0),w和b同时放缩λ倍,会导致函数间隔放缩λ倍。因此,我们需要对分离超平面的法向量w进行规范化,使得间隔可以确定,这就是我们引入的几何间隔。设样本点()的几何间隔为:
,则样本集的几何间隔为:
。
根据超平面的定义,我们可知,求取支持向量机的目的就是在几何间隔中得到以下w和b:
同理,推广到函数间隔中,可以得到:
(3)来自于
,所以它的变化对最优解问题的不等式约束没有影响(因为其他样本点构造的
同样放缩),对目标函数的优化(求取max)也没有影响。为了简单方便,我们令
,则有等价问题:
并且可以将其转化为:
(4)使用对偶性质解决问题时,一方面可以使原始问题更容易求解;另一方面对偶问题引入了核函数,可以推广到非线性分类的问题上。将上述原始问题转换为对偶问题步骤为:
①对每一个不等式约束引入拉格朗日乘子,则构建拉格朗日函数为
②根据拉格朗日函数,原始问题的对偶问题是极大极小值问题:
③欲求拉格朗日函数的最小值,应分别对w和b求偏导,并令其偏导值为0:
即有:
将解带入,可以得到:
④求
,就是对
求关于α的极大值,即有:
转化为:
⑤根据库恩-塔克条件,只有使
,才会出现
的点
,这些样本点就是离分类超平面最近的那些样本(支持向量点),并决定最优超平面的位置。由以上叙述可求得解:
上式求解的过程中,是任意一个
的样本点,
是所有
的样本点。
⑥原始问题构造的分离超平面可以写作:
分类决策函数就可以写作: