以前:以为最大间隔是因为一条线段从中间分开会令平方和最大化;a+b=8; a=b=4j时,a^2+b^2是最小的,并不符合最大间隔的含义;
20180813:所有样本中距离超平面(将所有的样本正确分类)最近的几何间隔最大化;比如说确定了某平面A,离它最近的样本点的几何间隔为dA;确定了某平面B,离它最近的样本点的几何间隔为dB,以此类推,多个平面;那么最终的确定方案就是比例dA,dB,dC……,选择最大的值,即最大间隔分类器;
如图所示:
能够容忍更多噪声—>所有样本与分割超平面的距离尽可能远—>最差的样本(离分割超平面最近的样本)与分割超平面的距离要尽可能远
因此,SVM的目的就是从无数多个分割超平面中,找到这样最好的分割超平面;
所以SVM的优化目标:
令(x(i)x(i),y(i)y(i)),i=1,2,...,mi=1,2,...,m为训练集中的一个样本,一共有mm个样本。wTx+b=0wTx+b=0为超平面,ww和bb是我们要求的参数。则样本(x(i)x(i),y(i)y(i))到超平面wTx+b=0wTx+b=0的距离(几何间隔)定义为:
γ=|wTx+b|||w||γ=|wTx+b|||w||
因为wTx+b=0wTx+b=0能正确分类样本,所以有:
y(wTx+b)>0y(wTx+b)>0
因此为了计算方便,可以去掉γγ表达式中的绝对值,写成:
γ=y(wTx+b)||w||γ=y(wTx+b)||w||
事实上,y取±1时,上式与最开始的定义完全等价。
重点来了!重点来了!
上面说到,我们要找的线描述为:离分割线最近的样本与分割线的距离尽量远
什么叫离分割线最近的样本?答:就是所有样本与分割线的距离,都大于等于该样本与分割线的距离。假设该样本为(x(k),y(k))(x(k),y(k)),则有:
y(i)(wTx(i)+b)||w||≥y(k)(wTx(k)+b)||w||,i=1,2,...,my(i)(wTx(i)+b)||w||≥y(k)(wTx(k)+b)||w||,i=1,2,...,m
此为约束条件。
什么是尽量远?答:
maxw,by(k)(wTx(k)+b)||w||maxw,by(k)(wTx(k)+b)||w||
此为目标。
为了书写方便,不妨设y(k)(wTx(k)+b)=Ky(k)(wTx(k)+b)=K(样本已确定,是一个常数),并约去约束条件中的分母,则上述两式联合起来可写为:
maxw,bK||w||maxw,bK||w||
s.t.y(i)(wTx(i)+b)≥K,i=1,2,...,ms.t.y(i)(wTx(i)+b)≥K,i=1,2,...,m
下面我们令w′=wK,b′=bKw′=wK,b′=bK,则有w=w′K,b=b′Kw=w′K,b=b′K,带入上述两式则有:
maxw,bK||w′K||即maxw,b1||w′||maxw,bK||w′K||即maxw,b1||w′||
s.t.y(i)(w′TKx(i)+b′K)≥K即y(i)(w′Tx(i)+b′)≥1,i=1,2,...,ms.t.y(i)(w′TKx(i)+b′K)≥K即y(i)(w′Tx(i)+b′)≥1,i=1,2,...,m
易知,优化w′=wKw′=wK与b′=bKb′=bK等价于优化w,bw,b,且有maxw,b1||w||maxw,b1||w||等价于minw,b12||w||2minw,b12||w||2所以我们最终就得到如下优化目标:
minw,b12||w||2minw,b12||w||2
s.t.y(i)(wTx(i)+b)≥1,i=1,2,...,ms.t.y(i)(wTx(i)+b)≥1,i=1,2,...,m
这就是我们熟悉的SVM优化目标啦!(注:这是假设样本可以被完美分类的情况下的目标,称为硬间隔最大化)
参考:https://blog.csdn.net/a738779675/article/details/50989048