机器学习（七）——SVM

ζ简单ั͡ ζั͡✾⁵₂º

已于 2023-12-18 20:12:53 修改

阅读量984

点赞数 22

文章标签：机器学习支持向量机人工智能

于 2023-12-18 20:11:57 首次发布

本文链接：https://blog.csdn.net/qq_61039462/article/details/135069230

版权

一、SVM概述

支持向量机是一种监督学习算法，其基本目标是找到一个最优超平面或者称为决策边界，可以在不同类别的数据点之间进行最佳分类。SVM在数据分类、回归分析和异常检测等领域都有广泛的应用。

二、基本思想

SVM的基本思想是通过找到一个能够将样本正确划分并且能够具有最大间隔的超平面来进行分类任务。这个超平面使得不同类别的样本点之间的间隔最大化，从而提高分类的准确性和泛化能力。具体来说，SVM的基本思想包括以下几个关键点：

1. 最大化间隔：SVM试图找到一个超平面，使得它与不同类别的样本点之间的间隔最大化。这样可以提高分类的鲁棒性，使得分类器对新样本的泛化能力更强

2. 使用支持向量：SVM通过寻找支持向量（即离超平面最近的样本点），来确定超平面的位置和方向。这些支持向量决定了超平面的最优位置，并且对分类起到关键作用

3. 引入核函数：对于非线性可分的情况，SVM使用核函数将样本映射到高维空间，从而使得原本在低维空间中分隔困难的样本在高维空间中变得线性可分

4.正则化：对模型增加正则化项，可以有效控制模型的复杂度，提高模型的泛化能力，对于处理高维数据和大规模数据时会更加有效。

三、相关知识

3.1 最大化间隔

超平面方程： $w^{T}+b=0$

分类间隔为: $\frac{2}{\left \| w \right \|}$

最大化间隔: 寻找参数w和b , 使得

即

最大

3.2 核函数

核函数是支持向量机中用于处理非线性分类问题的重要概念。在原始的特征空间中，某些问题可能是线性不可分的，也就是说无法用一个超平面将不同类别的样本正确分类。为了解决这个问题，引入了核函数的概念。核函数能够将原始的特征空间中的数据映射到更高维的特征空间中，通过这种映射，原本在低维空间中线性不可分的问题可能在高维空间中变得线性可分。而在高维空间中，我们可以更容易找到一个超平面来划分数据。在SVM中，核函数通常用于计算样本之间的内积，从而避免了显式地进行高维空间的特征转换，节省了计算资源。常用的核函数包括线性核函数、多项式核函数、高斯核函数等。

3.3 正则化

在SVM中，正则化通常通过引入正则化项来实现。正则化项会在损失函数中添加一个惩罚项，以阻止模型参数过大的增长，从而使得模型更加平滑和泛化能力更强。常用的正则化项有L1正则化和L2正则化：

L1正则化：通过向损失函数添加参数向量的L1范数，可以使得部分参数变为零，从而达到特征选择和稀疏性的作用。

L2正则化：通过向损失函数添加参数向量的L2范数，可以避免参数过大，保持参数的平滑性和稳定性。

四、SVM实现

import numpy as np
import matplotlib.pyplot as plt


np.random.seed(10)
X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
Y = [0] * 20 + [1] * 20

# 将Y转换为±1
Y = np.array([-1 if y == 0 else 1 for y in Y])

# 根据权重和偏置绘制决策边界
def plot_decision_boundary(X, y, w, b):
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm, s=30)
    ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    xx, yy = np.meshgrid(np.linspace(xlim[0], xlim[1], 50), np.linspace(ylim[0], ylim[1], 50))
    Z = w[0] * xx + w[1] * yy + b
    Z = np.sign(Z)
    Z = Z.reshape(xx.shape)
    plt.contour(xx, yy, Z, colors='k', levels=[-1, 0, 1], alpha=0.5, linestyles=['--', '-', '--'])
    plt.show()

# 训练SVM模型
def train_svm(X, y, learning_rate=0.1, n_iterations=1000):
    n_samples, n_features = X.shape
    w = np.zeros(n_features)
    b = 0
    for _ in range(n_iterations):
        for idx, x_i in enumerate(X):
            condition = y[idx] * (np.dot(x_i, w) - b) >= 1
            if condition:
                w -= learning_rate * (2 * 1/n_iterations * w)
            else:
                w -= learning_rate * (2 * 1/n_iterations * w - np.dot(x_i, y[idx]))
                b -= learning_rate * y[idx]
    return w, b

# 训练模型并绘制决策边界
w, b = train_svm(X, Y)
plot_decision_boundary(X, Y, w, b)

运行结果