机器学习（十四）SVM分类案例

最新推荐文章于 2024-07-16 10:43:25 发布

提莫君

最新推荐文章于 2024-07-16 10:43:25 发布

阅读量8.1k

点赞数 10

分类专栏：机器学习理论知识文章标签：机器学习案例 svm

本文链接：https://blog.csdn.net/qq_42642945/article/details/88853076

版权

本文深入探讨了SVM分类器的应用，通过四个案例展示了如何使用svm.SVC API进行模型构建。案例一利用鸢尾花数据集，详细解释了参数如C、kernel、degree等的作用。案例二对比了不同核函数的效果。案例三介绍了自定义内部核函数的方法。案例四则聚焦于手写数字识别，展现了SVM在实际问题中的应用。

摘要由CSDN通过智能技术生成

在这里插入图片描述

01_案例一：鸢尾花数据SVM分类

import numpy as np
import pandas as pd
from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn import metrics 
from sklearn.datasets import load_iris

# 读取数据
# 'sepal length', 'sepal width', 'petal length', 'petal width'
iris_feature = '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'
path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'  # 数据文件路径
data = pd.read_csv(path, header=None)
x, y = data[list(range(4))], data[4]
y = pd.Categorical(y).codes

# 数据分割
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=28, train_size=0.8)

svm.SVC API说明：

功能：使用SVM分类器进行模型构建
参数说明：
C: 误差项的惩罚系数，默认为1.0；一般为大于0的一个数字，C越大表示在训练过程中对于总误差的关注度越高，也就是说当C越大的时候，对于训练集的表现会越好，
但是有可能引发过度拟合的问题(overfiting)
kernel：指定SVM内部核函数的类型，可选值：linear、poly、rbf、sigmoid、precomputed(基本不用，有前提要求，要求特征属性数目和样本数目一样)；默认是rbf；
degree：当使用多项式函数作为svm内部的函数的时候，给定多项式的项数，默认为3
gamma：当SVM内部使用poly、rbf、sigmoid的时候，核函数的系数值，当默认值为auto的时候，实际系数为1/n_features
coef0: 当核函数为poly或者sigmoid的时候，给定的独立系数，默认为0
probability：是否启用概率估计，默认不启动，不太建议启动
shrinking：是否开启收缩启发式计算，默认为True
tol: 模型构建收敛参数，当模型的的误差变化率小于该值的时候，结束模型构建过程，默认值:1e-3
cache_size：在模型构建过程中，缓存数据的最大内存大小，默认为空，单位MB
class_weight：给定各个类别的权重，默认为空
max_iter：最大迭代次数，默认-1表示不限制
decision_function_shape: 决策函数，可选值：ovo和ovr，默认为None；推荐使用ovr；（1.7以上版本才有）

# 数据SVM分类器构建
clf = svm.SVC(C=1, kernel='linear')

# 模型训练
clf.fit(x_train, y_train)
# 计算模型的准确率/精度
print (clf.score(x_train, y_train)) 
print ('训练集准确率：', clf.score(x_train, y_train))
print (clf.score(x_test, y_test))
print ('测试集准确率：', clf.score(x_test, y_test))

# 训练器的预测值
print ('\npredict:\n', clf.predict(x_train))
# 计算决策函数的值(decision_function计算的是样本x到各个分割平面的距离<函数距离>)
print ('decision_function:\n', clf.decision_function(x_train))