机器学习实验三：支持向量机模型

Magic171

已于 2023-12-06 14:08:46 修改

阅读量624

点赞数 1

分类专栏：吴恩达机器学习文章标签：支持向量机机器学习算法

于 2023-12-05 12:14:27 首次发布

本文链接：https://blog.csdn.net/magic171/article/details/134803973

版权

吴恩达机器学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

本文介绍了机器学习系列实验中的第三部分，详细讲解了支持向量机(SVM)的基本原理、使用Python在鸢尾花数据集上进行分类预测的方法，包括数据集划分、评价指标计算（如精确率和召回率），以及加入松弛因子对模型性能的影响。

摘要由CSDN通过智能技术生成

系列文章目录

一、实验目的

（1）了解支持向量机基本知识；
（2）掌握 SVM 分类器的设计方法；
（3）学会建立 SVM 分类器来实现分类预测，并进行结果分析。

二、实验原理

支持向量机旨在求一个分离超平面。这个超平面使得离它最近的点能够最远。

三、实验内容

使用 Python 读取数据集信息, 使用鸢尾花的花萼（sepal）和花瓣（petal）
的长和宽数据，并利用 sklearn 训练支持向量机模型，随后使用 SVM 实现分类预
测，判断样本属于山鸢尾（Iris Setosa）、变色鸢尾（Iris Versicolor）还是
维吉尼亚鸢尾（Iris Virginica）。评价分类结果 TP、FN、FP、TN 以及精确率和
召回率。
加入松弛因子后，与未加松弛因子之前效果做对比。

四、实验步骤

1. 训练集和测试数据集划分

导入鸢尾花数据集，将数据集按 80%训练集，20%测试集的比例进行分割。

2. 评价分类结果 TP、FN、FP、TN 以及精确率和召回率

FN：被判定为负样本，但事实上是正样本；
FP：被判定为正样本，但事实上是负样本；
TN：被判定为负样本，事实上也是负样本；
TP：被判定为正样本，事实上也是正样本；
精确率 Precision：针对模型判断出的所有正例（即 TP + FP）而言，其中真
正例 TP 占的比例。
Precision = TP /( TP + FP )
召回率 Recall：针对数据集中的所有正例（即 TP + FN）而言，模型正确判
断出的正例 TP 占数据集中所有正例的比例，FN 表示被模型误认为是负例但实
际是正例的数据。
Recall = TP/( TP + FN ）

3. 加入松弛因子后，与未加松弛因子之前效果做对比。

假设样本数为 n，原先对样本的分类是yi( 𝑤 ⋅ 𝑥𝑖 + b) ≥ 1 ( i = 1, 2, … ,
n )，则引入松弛因子 ξ ≥ 0后对样本分类的要求变为 yi
( 𝑤 ⋅ 𝑥𝑖 + b) ≥ 1 − 𝜉𝑖 ( i
= 1, 2, …, n )，松弛因子的意义是引入一定的容错性。

五、代码参考

import numpy as np
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import label_binarize
iris = datasets.load_iris()
X = iris.data
y = iris.target
random_state = np.random.RandomState(0)
n_samples, n_features = X.shape
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=66)
# 设定参数
classifier = OneVsRestClassifier(svm.SVC(C=100000, kernel='linear', probability=True, 
random_state=random_state))
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
def func(precited, expected):
 res = (precited ^ expected) 
 r = np.bincount(res)
 tp_list = (precited & expected)
 fp_list = (precited & (~expected))
 tp_list = tp_list.tolist()
 fp_list = fp_list.tolist()
 TP = tp_list.count(1)
 FP = fp_list.count(1)
 TN = r[0] - TP
 FN = r[1] - FP
 Recall = TP / (TP + FN)
 Precesion = TP / (TP + FP)
 return TP, FP, TN, FN, Recall, Precesion
y_test1 = label_binarize(y_test, classes=[0, 1, 2])
y_pred1 = label_binarize(y_pred, classes=[0, 1, 2])
print(y_pred1[..., 0], y_test1[..., 0])
tp, fp, tn, fn, recall, pre = func(y_pred1[..., 0], y_test1[..., 0])
recall = format(recall, '0.2f')
pre = format(pre, '0.2f')
print(f"type1:recall = {recall} precision ={pre}")
tp, fp, tn, fn, recall, pre = func(y_pred1[..., 1], y_test1[..., 1])
recall = format(recall, '0.2f')
pre = format(pre, '0.2f')
print(f"type2:recall = {recall} precision = {pre}")
tp, fp, tn, fn, recall, pre = func(y_pred1[..., 2], y_test1[..., 2])
recall = format(recall, '0.2f')
pre = format(pre, '0.2f')
print(f"type3:recall = {recall} precision = {pre}")