基于支持向量机的分类预测

最新推荐文章于 2024-07-06 07:15:46 发布

行人高锁3号

最新推荐文章于 2024-07-06 07:15:46 发布

阅读量376

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/jelly_jun/article/details/108248667

版权

支持向量机

1.支持向量机介绍
2.代码流程

1.支持向量机介绍

1.1 引入

我们常常会碰到这样的一个问题，首先给你一些分属于两个类别的数据

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
%matplotlib inline
# 画图
X, y = make_blobs(n_samples=60, centers=2, random_state=0, cluster_std=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, s=60, cmap=plt.cm.Paired)

在这里插入图片描述
现在需要一个线性分类器，将这些数据分开来。

我们可能会有多种分法：

# 画散点图
X, y = make_blobs(n_samples=60, centers=2, random_state=0, cluster_std=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired)
x_fit = np.linspace(0, 3)
# 画函数
y_1 = 1 * x_fit + 0.8
plt.plot(x_fit, y_1, '-c')
y_2 = -0.3 * x_fit + 3
plt.plot(x_fit, y_2, '-k')

在这里插入图片描述
那么现在有一个问题，两个分类器，哪一个更好呢？

为了判断好坏，我们需要引入一个准则：好的分类器不仅仅是能够很好的分开已有的数据集，还能对未知数据集进行两个的划分。

假设，现在有一个属于红色数据点的新数据（3， 2.8）

# 画散点图
X, y = make_blobs(n_samples=60, centers=2, random_state=0, cluster_std=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired)
plt.scatter([3], [2.8], c='#cccc00', marker='<', s=100, cmap=plt.cm.Paired)
x_fit = np.linspace(0, 3)
# 画函数
y_1 = 1 * x_fit + 0.8
plt.plot(x_fit, y_1, '-c')
y_2 = -0.3 * x_fit + 3
plt.plot(x_fit, y_2, '-k')

在这里插入图片描述
可以看到，此时黑色的线会把这个新的数据集分错，而蓝色的线不会。

我们刚刚举的例子可能会带有一些主观性。

那么如何客观的评判两条线的健壮性呢？

此时，我们需要引入一个非常重要的概念：最大间隔。

最大间隔刻画着当前分类器与数据集的边界，以这两个分类器为例：

# 画散点图
X, y = make_blobs(n_samples=60, centers=2, random_state=0, cluster_std=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=plt.cm.Paired)
x_fit = np.linspace(0, 3)
# 画函数
y_1 = 1 * x_fit + 0.8
plt.plot(x_fit, y_1, '-c')

最低0.47元/天解锁文章

行人高锁3号

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基于支持向量机的分类预测

支持向量机1.支持向量机介绍1.1 引入1.2 软间隔1.3 超平面2.代码流程1.支持向量机介绍1.1 引入我们常常会碰到这样的一个问题，首先给你一些分属于两个类别的数据import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets.samples_generator import make_blobs%matplotlib inline# 画图X, y = make_blobs(n_samples=60, c
复制链接

扫一扫