机器学习---支持向量机SVM

最新推荐文章于 2022-12-17 19:01:30 发布

shijing0405

最新推荐文章于 2022-12-17 19:01:30 发布

阅读量406

点赞数

分类专栏：机器学习算法简介文章标签： SVM

本文链接：https://blog.csdn.net/shijing0405/article/details/90379000

版权

机器学习算法简介专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本篇主要从SVM的简介、原理、核心问题、案例以及同类算法的比较进行阐述，希望对学习者有所帮助，同时如果有什么不恰当的表述，以及需要改进的地方，欢迎大家一起讨论和学习。

1、SVM简介

SVM是一种监督学习算法，主要用于分类、回归、异常值检测。目前应用于文本分类、手写文字识别、图像分类、生物序列分析。

支持向量机是一种通过某种非线性映射，把低维的非线性可分转化为高维的线性可分，在高维空间进行线性分析的算法。支持向量机（SVM，Support Vector Machine）是根据统计学习理论提出的一种新的学习方法，它的最大特点是根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。

优点: 在高维空间中有效；在维数大于样本的情况下，仍然有效；泛化错误率低，计算开销不大，结果易解释。解决小样本、非线性及高维模式识别问题中都表现出了许多特有的优势。

缺点: 对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。

适用数据类型: 数值型和标称型数据。

调用： R：软件包e1071 ，函数svm Python:模块from sklearn import svm model = svm.SVC()

2、SVM原理

SVM首先通过核函数将特征映射到一个更高维的空间里，变成线性可分，在其中建立最大间隔超平面，将数据分开；然后，在超平面两边再设立两个互相平行的超平面；最后分隔超平面，使两个平行超平面的距离最大化。SVM假定平行超平面间的距离或差距越大，分类器的总误差越小。

3、SVM核心问题

（1）核函数的理解

当我们在解决线性不可分的问题时，我们需要通过一个映射函数，把样本值映射到更高维的空间或者无穷维。在特征空间中，我们对线性可分的新样本使用前面提到过的求解线性可分的情况下的分类问题的方法时，需要计算样本内积，但是因为样本维数很高，容易造成“维数灾难”，所以这里我们就引入了核函数，把高维向量的内积转变成了求低维向量的内积问题。（通过映射函数将样本值映射高维空间，需计算样本内积，但是容易出现维度灾难。在特征空间中，把高维向量的内积转变成了求低维向量的内积问题，注：内积是可以衡量两个向量的相似度的）。

（2）核函数的选择

核函数主要包括：线性核函数（Linear主要用于线性可分的情形）、多项式核函数（Polynomial）、径向基核函数（高斯核函数RBF）、神经网络核函数。

各核函数的详细讲解可参考：https://www.cnblogs.com/volcao/p/9465214.html。

在选取核函数解决实际问题时，通常采用的方法有：一是利用专家的先验知识预先选定核函数；二是采用Cross-Validation方法（交叉验证），即在进行核函数选取时，分别试用不同的核函数，归纳误差最小的核函数就是最好的核函数．如针对傅立叶核、RBF核，结合信号处理问题中的函数回归问题，通过仿真实验，对比分析了在相同数据条件下，采用傅立叶核的SVM要比采用RBF核的SVM误差小很多。

4、案例

#-*- coding: utf-8 -*-
import os
os.getcwd()
os.chdir("D:\\BOOK\python\demo")

#....................数据抽样代码.....................
import pandas as pd
inputfile = 'data/moment.csv' #数据文件
outputfile1 = 'tmp/cm_train.xls' #输出测试数据
outputfile2 = 'tmp/cm_test.xls' #输出检验数据
data = pd.read_csv(inputfile, encoding = 'gbk') #读取数据，指定编码为gbk
data = data.as_matrix()
from numpy.random import shuffle #引入随机函数
shuffle(data) #随机打乱数据
data_train = data[:int(0.8*len(data)), :] #选取前80%作为训练数据
data_test = data[int(0.8*len(data)):, :] #选取后20%作为检验数据
##。。。。。。。。。。。。构建支持向量机模型代码..............                
#构造特征和标签
x_train = data_train[:, 2:]*30#放大特征
y_train = data_train[:, 0].astype(int)
x_test = data_test[:, 2:]*30 #放大特征
y_test = data_test[:, 0].astype(int)
#导入模型相关的函数，建立并且训练模型
from sklearn import svm
model = svm.SVC()
model.fit(x_train, y_train)
import pickle
pickle.dump(model, open('../tmp/svm.model', 'wb'))
#最后一句保存模型，以后可以通过下面语句重新加载模型：
#model = pickle.load(open('../tmp/svm.model', 'rb'))
#导入输出相关的库，生成混淆矩阵
from sklearn import metrics
cm_train = metrics.confusion_matrix(y_train, model.predict(x_train)) #训练样本的混淆矩阵
cm_test = metrics.confusion_matrix(y_test, model.predict(x_test)) #测试样本的混淆矩阵

#保存结果
pd.DataFrame(cm_train, index = range(1, 6), columns = range(1, 6)).to_excel(outputfile1)
pd.DataFrame(cm_test, index = range(1, 6), columns = range(1, 6)).to_excel(outputfile2)

shijing0405

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习---支持向量机SVM

本篇主要从SVM的简介、原理、核心问题、案例以及同类算法的比较进行阐述，希望对学习者有所帮助，同时如果有什么不恰当的表述，以及需要改进的地方，欢迎大家一起讨论和学习。1、SVM简介SVM是一种监督学习算法，主要用于分类、回归、异常值检测。目前应用于文本分类、手写文字识别、图像分类、生物序列分析。支持向量机是一种通过某种非线性映射，把低维的非线性可分转化为高维的线性可分，...
复制链接

扫一扫

专栏目录