SVM（下）：如何进行乳腺癌检测

最新推荐文章于 2023-12-24 16:55:36 发布

LiuDi1999

最新推荐文章于 2023-12-24 16:55:36 发布

阅读量536

点赞数 2

分类专栏：数据分析实战

本文链接：https://blog.csdn.net/qq_41520877/article/details/108649797

版权

SVM 是有监督的学习模型，我们需要事先对数据打上分类标签，通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题，可以将多个二分类器组合起来形成一个多分类器。

如何在 sklearn 中使用 SVM
在 Python 的 sklearn 工具包中有 SVM 算法，首先需要引用工具包：

from sklearn import svm

SVM 既可以做回归，也可以做分类器。
当用 SVM 做回归的时候，我们可以使用 SVR 或 LinearSVR。
当做分类器的时候，我们使用的是 SVC 或者 LinearSVC。

简单说一下这两者之前的差别。
从名字上能看出 LinearSVC 是个线性分类器，用于处理线性可分的数据，只能使用线性核函数。 SVM 是通过核函数将样本从原始空间映射到一个更高维的特质空间中，这样就使得样本在新的空间中线性可分。

如果是针对非线性的数据，需要用到 SVC。在 SVC 中，既可以使用到线性核函数（进行线性划分），也能使用高维的核函数（进行非线性划分）。

如何创建一个 SVM 分类器呢？
我们首先使用 SVC 的构造函数：

model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’)

这里有三个重要的参数 kernel、C 和 gamma。
kernel 代表核函数的选择，它有四种选择：

默认是 rbf，即高斯核函数。
linear：线性核函数
poly：多项式核函数
sigmoid：sigmoid 核函数

这四种函数代表不同的映射方式，如何选择这 4 种核函数呢？
线性核函数，是在数据线性可分的情况下使用的，运算速度快，效果好。不足在于它不能处理线性不可分的数据。
多项式核函数可以将数据从低维空间映射到高维空间，但参数比较多，计算量大。
高斯核函数同样可以将样本映射到高维空间，但相比于多项式核函数来说所需的参数比较少，通常性能不错，所以是默认使用的核函数。
上面介绍的 4 种核函数，除了第一种线性核函数外，其余 3 种都可以处理线性不可分的数据。

参数 C 代表目标函数的惩罚系数，惩罚系数指的是分错样本时的惩罚程度，默认情况下为 1.0。当 C 越大的时候，分类器的准确性越高，但同样容错率会越低，泛化能力会变差。相反，C 越小，泛化能力越强，但是准确性会降低。

参数 gamma 代表核函数的系数，默认为样本特征数的倒数，即 gamma = 1 / n_features。

在创建 SVM 分类器之后，就可以输入训练集对它进行训练。我们使用 model.fit(train_X,train_y)，传入训练集中的特征值矩阵 train_X 和分类标识 train_y。

特征值矩阵就是我们在特征选择后抽取的特征值矩阵（当然你也可以用全部数据作为特征值矩阵）；分类标识就是人工事先针对每个样本标识的分类结果。这样模型会自动进行分类器的训练。我们可以使用 prediction=model.predict(test_X) 来对结果进行预测，传入测试集中的样本特征矩阵 test_X，可以得到测试集的预测分类结果 prediction。

同样我们也可以创建线性 SVM 分类器，使

最低0.47元/天解锁文章

LiuDi1999

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
SVM（下）：如何进行乳腺癌检测

SVM 是有监督的学习模型，我们需要事先对数据打上分类标签，通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题，可以将多个二分类器组合起来形成一个多分类器。如何在 sklearn 中使用 SVM在 Python 的 sklearn 工具包中有 SVM 算法，首先需要引用工具包：from sklearn import svmSVM 既可以做回归，也可以做分类器。当用 SVM 做回归的时候，我们可以使用 SVR 或 LinearSVR。当做分类器的时候，我们使用的是 SVC 或者 Line
复制链接

扫一扫

专栏目录