机器学习之十大经典算法（六） SVM算法

最新推荐文章于 2024-08-07 09:41:39 发布

AI专家

最新推荐文章于 2024-08-07 09:41:39 发布

阅读量4.8k

点赞数 4

分类专栏：机器学习机器之心文章标签： SVM支持向量机

本文链接：https://blog.csdn.net/weixin_42039090/article/details/80601725

版权

本文深入探讨了支持向量机（SVM）的基本原理，包括其作为统计学习方法的基础，以及如何通过映射到高维空间实现线性可分。SVM在小样本、非线性和高维模式识别中具有显著优势。同时，文章介绍了SVM在Scikit-learn库中的应用步骤，包括数据划分、模型构建、验证、测试和调优。

摘要由CSDN通过智能技术生成

（一） SVM支持向量机简介：

全名：SupportVector Machine（支持向量机）。基于统计学习理论的一种机器学习方法。SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性之间寻求最佳折衷，以期获得最好的推广能力（或泛化能力）。支持向量：支持或支撑平面上把两类类别划分开来的超平面的向量点。简单的说，就是将数据单元表示在多维空间中，然后对这个空间做划分的算法。其基本原理是（以二维数据为例）：如果训练数据分布在二维平面上的点，它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是，通过训练，找到这些分类之间的边界（直线的――称为线性划分，曲线的――称为非线性划分）。对于多维数据（如 N 维），可以将它们视为 N 维空间中的点，而分类边界就是 N 维空间中的面，称为超面（超面比 N维空间少一维）。线性分类器使用超平面类型的边界，非线性分类器使用超曲面。

支持向量机的原理是将低维空间的点映射到高维空间，使它们成为线性可分，再使用线性划分的原理来判断分类边界。在高维空间中是一种线性划分，而在原有的数据空间中，是一种非线性划分。SVM 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

（二） SVM支持向量机基本步骤：

这部分内容转载https://blog.csdn.net/bbbeoy/article/details/72468868，总结非常好。

（三） Sklearn中SVM应用举例。

基本步骤：

①选择数据：将你的数据分成三组：训练数据、验证数据和测试数据

②模型数据：使用训练数据来构建使用相关特征的模型

③验证模型：使用你的验证数据接入你的模型

④测试模型：使用你的测试数据检查被验证的模型的表现

⑥使用模型：使用完全训练好的模型在新数据上做预测

⑥调优模型：使用更多数据、不同的特征或调整过的参数来提升算法的性能表现

写了个SVM算法类，方便大家使用，代码如下：
import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
class MySVM:
    def __init__(self,params={
  'kernel': 'linear'},input_file='d:\\data_multivar.txt'):
        self.input_file=input_file
        self.moduleparams=params
        self.module=SVC(**params)
    def load_data(self):
        X = []
        y = []
        with open(self.input_file, 'r') as f:
            for line in f.readlines()