机器学习实战----SKLearn实现SVM

最新推荐文章于 2023-11-10 14:42:44 发布

bailixuance

最新推荐文章于 2023-11-10 14:42:44 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/bailixuance/article/details/85040651

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

一、简介

win10, notebook ,python 3.6

支持向量机总结

我们在这里看到了支持向量机背后的原则的简单直观的介绍。这些方法是强大的分类方法，原因有很多：

他们依赖相对较少的支持向量，意味着它们是非常紧凑的模型，并且占用很少的内存。
一旦训练了模型，预测阶段非常快。
因为它们仅受边缘附近的点的影响，它们适用于高维数据，甚至维度大于样本的数据，这对于其他算法来说是一个挑战。
内核方法的集成使得它们非常通用，能够适应许多类型的数据。

然而，SVM也有几个缺点：

在最差的情况下，样本数N的复杂度为O(N^3)，对于高效的实现，是O(N^2)。对于大量的训练样本，这种计算成本可能令人望而却步。
结果强烈依赖于软化参数C的合适选择。这必须通过交叉验证仔细选择，随着数据集增大，开销也增大。
结果没有直接的概率解释。这可以通过内部交叉验证来估计（参见SVC的概率参数），但这种额外的估计是昂贵的。

考虑到这些特性，一般来说，只要其他更简单，更快，并且不需要调优的方法不足以满足我的需求，我一般只会考虑 SVM。然而，如果你投入了足够的 CPU 周期，使用 SVM 训练和验证你的数据，这个方法有很好的效果。

参考：

python数据分析手册

https://jakevdp.github.io/PythonDataScienceHandbook/05.07-support-vector-machines.html

https://www.kesci.com/home/project/5be0480f954d6e0010618cef/code

github的翻译：

https://www.jianshu.com/p/864adfd2f795

二、简单线性SVM

1、首先生成数据

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns; sns.set()



# 随机来点数据,n_samples:50个样本点，centers：中心数，random_state:随机种子，
# cluster_std：簇离散程度，

from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=50, centers=2,
                  random_state=0, cluster_std=0.60)
# 数据散点图
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')

# print(X)
# print(y)

如图：

2、建立模型

# 导入模型，使用线性核，将C参数设置为一个非常大的数值
from sklearn.svm import SVC # "Support vector classifier"
model = SVC(kernel='linear',C=1E10)
# 数据传入SVM模型
model.fit(X, y)

辅助绘制函数：

def plot_svc_decision_function(model, ax=None, plot_support=True):
    """Plot the decision function for a 2D SVC"""
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    # create grid to evaluate model
    x = np.linspace(xlim[0], xlim[1], 30)
    y = np.linspace(ylim[0], ylim[1], 30)
    Y, X = np.meshgrid(y, x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    
    P = model.decision_function(xy).reshape(X.shape)
    
    # plot decision boundary and margins
    # ax.contour在这里画的是三条等高线
    # 像levels，alpha这些参数，都可以调节一下，看一下有什么变化
    ax.contour(X, Y, P, colors='k',
               levels=[-1, 0, 1], alpha=0.5,
               linestyles=['--', '-', '--'])
    
    # plot support vectors
    # 下面的操作是画出距离分界线最近的点
    if plot_support:
        ax.scatter(model.support_vectors_[:, 0],
                   model.support_vectors_[:, 1],
                   s=300, linewidth=1, facecolors='none');
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)

3、结果

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(model)

支持向量：

# 支持向量
model.support_vectors_

array([[0.44359863, 3.11530945],
       [2.33812285, 3.43116792],
       [2.06156753, 1.96918596]])

4、更改数据集试试

观察可以发现，只需要支持向量我们就可以把模型构建出来

接下来我们尝试一下，用不同多的数据点，看看效果会不会发生变化

分别使用60个和120个数据点

def plot_svm(N=10, ax=None):
    X, y = make_blobs(n_samples=200, centers=2,
                      random_state=0, cluster_std=0.60)
    X = X[:N]
    y = y[:N]
    model = SVC(kernel='linear', C=1E10)
    model.fit(X, y)
    
    ax = ax or plt.gca()
    ax.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
    ax.set_xlim(-1, 4)
    ax.set_ylim(-1, 6)
    plot_svc_decision_function(model, ax)

fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)
for axi, N in zip(ax, [60, 120]):
    plot_svm(N, axi)
    axi.set_title('N = {0}'.format(N))

左边是60个点的结果，右边的是120个点的结果
观察发现，只要支持向量没变，其他的数据怎么加无所谓！

5、Notebook使用小技巧

notebook，使用 IPython 的交互式小部件，以交互方式查看 SVM 模型的此功能：

from ipywidgets import interact, fixed
interact(plot_svm, N=[10, 200], ax=fixed(None))

三、核函数SVM

1、数据

from sklearn.datasets.samples_generator import make_circles
X, y = make_circles(100, factor=.1, random_state=0,noise=.1)


plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')

2、三维可视化

#加入了新的维度r
from mpl_toolkits import mplot3d
r = np.exp(-(X ** 2).sum(1))
def plot_3D(elev=30, azim=30, X=X, y=y):
    ax = plt.subplot(projection='3d')
    ax.scatter3D(X[:, 0], X[:, 1], r, c=y, s=50, cmap='autumn')
    ax.view_init(elev=elev, azim=azim)
    ax.set_xlabel('x')
    ax.set_ylabel('y')
    ax.set_zlabel('r')

plot_3D(elev=45, azim=45, X=X, y=y)

我们可以看到，使用这个附加维度，通过在r = 0.7处绘制分离平面，数据可以线性分离。

在这里，我们必须选择并仔细调整我们的预测：

如果我们没有将径向基函数置于正确的位置，我们就不会看到这样清晰的线性可分离结果。

一般来说，做出这样的选择的需求是一个问题：我们想以某种方式自动找到最佳的基函数来使用。

为此，一个策略是计算以数据集中每个点为中心的基函数，并使 SVM 算法筛选出结果。这种类型的基函数变换被称为核变换，因为它基于每对点之间的相似关系（或核）。

这种策略的潜在问题 - 将N个点投影到N个维度 - 就是随着N增长，它的计算开销可能会变得非常大。然而，由于一个被称为核技巧的简洁的小过程，内核转换数据上的拟合可以隐式完成，也就是说，不需要为核投影构建完全的N维数据表示！这个核技巧内置在 SVM 中，也是该方法如此强大的原因之一。

3、模型构造，加入径向基函数

#加入径向基函数
clf = SVC(kernel='rbf', C=1E6)
clf.fit(X, y)

4、绘制

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(clf)
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
            s=300, lw=1, facecolors='none');

使用这种核支持向量机，我们学习一个合适的非线性决策边界。这种核变换策略在机器学习中经常被使用！

四、调整SVM软间距

SVM 实现了软化因子，即“软化”边距：也就是说，如果允许更好的匹配，它允许某些点进入边距。

边缘的硬度由调整参数控制，通常称为C。

对于非常大的C，边距是硬的，点不能进入。

对于较小的C，边缘较软，可以扩展并包含一些点。

调节C参数

当C趋近于无穷大时：意味着分类严格不能有错误
当C趋近于很小的时：意味着可以有更大的错误容忍

参数C的最佳值将取决于你的数据集，并应使用交叉验证或类似的过程进行调整

1、数据

X, y = make_blobs(n_samples=100, centers=2,
                  random_state=0, cluster_std=0.8)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn');

2、C= 10，与C= 0.1

fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)

for axi, C in zip(ax, [10.0, 0.1]):
    model = SVC(kernel='linear', C=C).fit(X, y)
    axi.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
    plot_svc_decision_function(model, axi)
    axi.scatter(model.support_vectors_[:, 0],
                model.support_vectors_[:, 1],
                s=300, lw=1, facecolors='none');
    axi.set_title('C = {0:.1f}'.format(C), size=14)

3、gama = 10, 与gama = 0.1

X, y = make_blobs(n_samples=100, centers=2,
                  random_state=0, cluster_std=1.1)

fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)

for axi, gamma in zip(ax, [10.0, 0.1]):
    model = SVC(kernel='rbf', gamma=gamma).fit(X, y)
    axi.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
    plot_svc_decision_function(model, axi)
    axi.scatter(model.support_vectors_[:, 0],
                model.support_vectors_[:, 1],
                s=300, lw=1, facecolors='none');
    axi.set_title('gamma = {0:.1f}'.format(gamma), size=14)

五、SVM实现人脸识别

使用 Wild 数据集中的标记人脸，其中包含数千张各种公众人物的整理照片。数据集的获取器内置于 Scikit-Learn中。

bailixuance

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
机器学习实战----SKLearn实现SVM

一、简介win10, notebook ,python 3.6 支持向量机总结我们在这里看到了支持向量机背后的原则的简单直观的介绍。这些方法是强大的分类方法，原因有很多：他们依赖相对较少的支持向量，意味着它们是非常紧凑的模型，并且占用很少的内存。一旦训练了模型，预测阶段非常快。因为它们仅受边缘附近的点的影响，它们适用于高维数据，甚至维度大于样本的数据，这对于其他算...
复制链接

扫一扫