数值计算和SVM讲解(下)

本文详细介绍了SVM的基础概念,包括原始SVM、软阈值(松弛变量)、核函数以及SMO算法。重点阐述了SVM的优化过程,从最大化几何间隔到引入松弛变量处理噪声,再到利用核函数解决非线性问题。SMO算法作为快速求解支持向量机的实用方法,适用于大规模训练样本。
摘要由CSDN通过智能技术生成

2.2.1 Original SVM

终于把所有的铺垫介绍完毕,本节开始我们正式进入SVM。

首先我们简单介绍一下朴素SVM,这个“朴素”一词是本人自己加上的。其意旨脱去加上核函数和SMO算法等等其他知识,展现最为“原始”的SVM思想。

根据2.1.2一节,我们知道SVM的基本架构(代价函数等等)与logistic回归统一,区别在于它的焦点在于支持向量这些点上。那么直观而言,我们希望最优超平面能与这些支持向量的距离(指几何距离)最小。

这里便引出了两个知识点:函数间隔 (Functional margin)与几何间隔 (Geometrical margin)。函数间隔我们在2.1.3感知机一节中已经介绍(构建感知机代价函数中,由此可见感知机其实也是SVM的基础之一),其值为yi(wTxi+b)。

在SVM中我认为几何间隔是构建优化模型最直观的感受,函数间隔只是在几何间隔的基础上人为设定的一种定义值,其作用只是辅助前者。所以本文我们着重介绍一下几何间隔。几何间隔,顾名思义相关点到超平面的几何距离。对于一般点到平面的距离,有公式: d=|wTx+b|/ ||w||,其中分子为绝对值,分母为w的L2范数,也即向量w的模。

设支持向量的样本点为(x*,y*),γ作为支持向量到超平面的几何间隔14:

这里写图片描述

对于二者我们有以下的性质:
1.当函数间隔小于0,表示的是误分类的噪声,在感知机一节中我们提到用其来作为误分类样本点的个数,并成为代价函数;在SVM中我们用其作为支持向量样本点与超平面的几何间隔的分子部分;
2. 同倍数扩大或缩小w、b,超平面是不变的,函数距离会同等增减;而几何距离不变,因为点到固定平面的距离是不变的;
3.几何间隔=函数间隔/||w||

接着我们初步定义模型为15(最大化几何间隔):

这里写图片描述

其中我们可以令优化函数的分子(函数间隔)为1。因为上述性质2:假设我们这个优化问题的最优解是w*,b*,那么我们可以总是可以同倍数地调整w*,b*使得函数间隔=1,而此时最优超平面是不变的;则上式转化为16:

这里写图片描述

工程上为了更好求解,我们将目标函数1/||w|| 的最大值转化为求 ||w||平方/2 的最小值。所以上述最终转化为17
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值