机器学习实战之支持向量机

参考文章
https://blog.csdn.net/v_JULY_v/article/details/7624837
https://www.jiqizhixin.com/articles/2018-10-17-20

支持向量机

  • 优点:范化错误率低,计算开销不大,结果易解释
  • 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用二分类问题
  • 适用数据类型:数值型和标称型数据

基于最大间隔分隔数据

分隔超平面

将n维线性可分数据分隔开来的n-1对象即为–分隔超平面–,此超平面就是分类的决策边界。分布在超平面一侧的
所有数据都属于某个类别,而分布在另一侧的所有数据则属于另一个类别。

因此,我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。我们希望这个间隔尽可能的大,
这是因为如果我们犯错或者在有限数据上训练分类器的话,希望分类器尽可能的建壮。

支持向量

支持向量就是离分隔超平面最近的那些点。要做的就是找到最大化支持向量到分隔面的距离。

寻找最大间隔

分隔超平面的形式可以写成 W T + b W^T + b WT+b。计算点A到分隔超平面的距离就是计算点到分隔面的法线或垂线的长度,该值为 ∣ W T + b ∣ / ∣ ∣ W ∣ ∣ |W^T +b| / ||W|| WT+b/W

分类器求解的优化问题

现在的目标就是找出分类器定义中的w和b。为此,我们必须找到具有最小间隔的数据点,而这些点就是支持向量。一旦找到具有最小间隔的数据点,
我们就需要对该间隔做最大化。写作: a r g m a x arg max argmax
最终优化目标可以写成:

SVM应用的一般框架

SVM的一般流程

  • 收集数据:可以使用任意方法
  • 准备数据:需要数值型数据
  • 分析数据:有助于可视化分隔超平面
  • 训练算法:SVM的大部分时间都源自训练,该过程主要实现两个参数的调优
  • 测试算法:十分简单的计算过程就可以实现
  • 使用算法:几乎所有分类问题都可以使用SVM,SVM本身是一个二分类器,对多类问题应用SVM需要对代码做一些修改

SMO高效优化算法

SMO表示序列最小优化(Sequential Minimal Optimization),目标是求出一系列的alpha和b,一旦求出了这些alpha,就很容易计算出权重向量w并得到分隔超平面。

SMO算法的工作原理是:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么就增大其中一个同时减小另一个。这里所谓的“合适”就是指两个alpha必须
要符合一定的条件,条件之一就是这两个alpha必须要在间隔边界之外,而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

应用简化版SMO算法处理小规模数据集

SMO函数伪代码如下:

  • 创建一个alpha向量并将其初始化为0向量
  • 当迭代次数小于最大迭代次数时(外循环):
    • 对数据集中的每个数据向量(内循环):
      • 如果该数据向量可以被优化:
        • 随机选择另外一个数据向量
        • 同时优化这两个向量
        • 如果两个向量都不能被优化,退出内循环
    • 如果所有向量都没被优化,增加迭代数目,继续下一次循环
# -*- coding: utf-8 -*-
"""
Created on Wed Nov 28 14:40:14 2018

@author: Alex
"""
import numpy as np
#SMO算法中的辅助函数
def loadDataSet(fileName): #G
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值