支持向量机SVM

支持向量机SVM

SVM工作原理:从低维向高维映射,找到能够区分类别且分类间隔最大的超平面。SVM就是求解最大分类间隔的过程。
分类间隔:

d i = ∣ ω x i + b ∣ ∥ ω ∥ d_{i}=\frac{\left|\omega x_{i}+b\right|}{\|\omega\|} di=ωωxi+b

最大间隔的优化模型:
  • SVM的目标就是找出所有分类间隔中最大的那个值对应的超平面,属于数学中的凸优化问题,用拉格朗日乘子和KKT条件求解。
硬间隔、软间隔和非线性SVM:
  • 硬间隔是指完全分类正确,不能存在分类错误的情况。
  • 软间隔指允许一定量的样本分类错误。
  • 核函数可将原始空间映射到一个更高维度的特征空间中,使得样本在新的空间中线性可分,从而完成非线性的分类问题。
  • 常用的核函数有线性核、多项式核、高斯核、拉普拉斯核、sigmoid核
将多个二分类器组合起来形成一个多分类器,常见方法有一对多法和一对一法。
  • 一对多法:将其中的一个类别归为一类,其他的类别同一归为另一类。
  • 一对一法:在任意两类样本之间构造一个SVM
SVM在sklearn中的创建:
model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’)

kernel核函数有四种选择:

  1. linear线性核函数
  2. poly多项式核函数
  3. rbf高斯核函数
  4. sigmoid核函数
线性核函数在线性可分情况下使用,速度快,效果好,但不能处理线性不可分数据
多项式核函数可将数据从低维映射到高维空间,参数多,计算量大
高斯核函数可将样本映射到高维空间,且比多项式核函数所需参数少,通用性能好,为默认
参数C指目标函数惩罚系数,C越大,分类精度越高,但容错率会降低,泛化能力变差。C越小,泛化能力越强,但准确率会降低
gamma为核函数系数,默认为样本特征数的倒数
SVM案例乳腺癌检测:
  1. 加载数据源

    # 加载数据集,你需要把数据放到目录中
    data = pd.read_csv("./data.csv")
    # 数据探索
    # 因为数据集中列比较多,我们需要把dataframe中的列全部显示出来
    pd.set_option('display.max_columns', None)
    print(data.columns)
    print(data.head(5))
    print(data.describe())
    
  2. 数据清洗

    # 将特征字段分成3组
    features_mean= list(data.columns[2:12])
    features_se= list(data.columns[12:22])
    features_worst=list(data.columns[22:32])
    # 数据清洗
    # ID列没有用,删除该列
    data.drop("id",axis=1,inplace=True)
    # 将B良性替换为0,M恶性替换为1
    data['diagnosis']=data['diagnosis'].map({'M':1,'B':0})
    
  3. 特征选择

    # 将肿瘤诊断结果可视化
    sns.countplot(data['diagnosis'],label="Count")
    plt.show()
    # 用热力图呈现features_mean字段之间的相关性
    corr = data[features_mean].corr()
    plt.figure(figsize=(14,14))
    # annot=True显示每个方格的数据
    sns.heatmap(corr, annot=True)
    plt.show()
    # 特征选择
    features_remain = ['radius_mean','texture_mean', 'smoothness_mean','compactness_mean','symmetry_mean', 'fractal_dimension_mean'] 
    
  4. 训练集分割

    # 抽取30%的数据作为测试集,其余作为训练集
    train, test = train_test_split(data, test_size = 0.3)
    # 抽取特征选择的数值作为训练和测试数据
    train_X = train[features_remain]
    train_y=train['diagnosis']
    test_X= test[features_remain]
    test_y =test['diagnosis']
    
  5. 数据规范化

    # 采用Z-Score规范化数据,保证每个特征维度的数据均值为0,方差为1
    ss = StandardScaler()
    train_X = ss.fit_transform(train_X)
    test_X = ss.transform(test_X)
    
  6. 训练和预测

    # 创建SVM分类器
    model = svm.SVC()
    # 用训练集做训练
    model.fit(train_X,train_y)
    # 用测试集做预测
    prediction=model.predict(test_X)
    print('准确率: ', metrics.accuracy_score(prediction,test_y))
    

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sweeney Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值