SVM算法

丰。。

已于 2023-03-29 15:04:00 修改

阅读量2.4k

点赞数 1

分类专栏：机器学习笔记机器学习数学基础文章标签：支持向量机算法机器学习

于 2023-03-09 00:30:00 首次发布

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/129401396

版权

机器学习笔记同时被 2 个专栏收录

84 篇文章 4 订阅

订阅专栏

机器学习数学基础

23 篇文章 1 订阅

订阅专栏

研究背景

支持向量机(Support Vector Machine, SVM)是一种非常流行的分类和回归算法，它利用核函数将数据映射到高维空间，在该空间中寻找最优的超平面来进行分类或回归预测。自从SVM算法被提出以来，它在模式识别、图像处理、自然语言处理等领域得到了广泛的应用和研究。

以下是一些关于SVM算法的经典论文：

Vapnik, V. N. (1995). The nature of statistical learning theory. Springer.
这是SVM算法最早的论文之一，提出了SVM的理论基础和算法，并讨论了SVM在分类问题中的应用。

Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.
这篇论文详细介绍了支持向量机算法的实现和应用，并比较了SVM和其他分类算法的性能。

Chang, C. C., & Lin, C. J. (2011). LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology (TIST), 2(3), 27.
这篇论文介绍了一个非常流行的SVM软件库LIBSVM，该库提供了高效的SVM实现，并包括了许多常用的核函数和参数选择方法。

Schölkopf, B., & Smola, A. (2002). Learning with kernels: Support vector machines, regularization, optimization, and beyond. MIT press.
这是一本关于支持向量机和核方法的经典教材，详细讨论了SVM的理论和应用，以及其他相关的机器学习算法和技术。

Suykens, J. A., & Vandewalle, J. (1999). Least squares support vector machine classifiers. Neural processing letters, 9(3), 293-300.
这篇论文提出了一种基于最小二乘的支持向量机算法，可以用于解决线性和非线性分类问题。

原理说明

SVM（支持向量机）是一种用于分类和回归分析的机器学习算法。它基于构建一个最优的超平面，可以将不同类别的数据分隔开来，从而实现分类。

具体来说，SVM的算法原理如下：

寻找最优的超平面：在给定的训练数据中，SVM算法会寻找一个最优的超平面，使得将数据分为两个类别的间隔最大化。

核函数的应用：对于非线性分类问题，SVM采用核函数将数据映射到高维空间中，使得在该空间中可以使用线性超平面分割数据。

求解优化问题：SVM通过求解一个凸二次规划问题来确定最优的超平面。该问题的目标是找到一个最小的误分类率，并最大化分类边界的间隔。

支持向量的确定：在确定最优的超平面后，SVM算法将寻找支持向量，即离最优超平面最近的训练数据点。这些数据点在分类过程中起到了关键的作用。

分类器的构建：基于最优的超平面和支持向量，SVM可以构建一个分类器，用于对新的数据进行分类。

总体来说，SVM是一种强大的分类器，可以处理线性和非线性分类问题。它的核心思想是最大化分类边界的间隔，并利用支持向量来确定最优的超平面，从而实现高效的分类。

公式推导

SVM算法是一种基于优化理论的分类算法，其推导需要一定的数学基础和优化理论知识。以下是SVM算法的公式推导过程：

首先，假设我们有一组训练数据 ${(x_1,y_1), (x_2,y_2),..., (x_n,y_n)}$ ，其中 $x_i$ 是一个 $m$ 维向量， $y_i$ 是一个二元标签，即 $y_i\in{-1,+1}$ ，表示样本属于哪一类。

接下来，我们需要构建一个最优的分类超平面，将不同类别的样本分开。假设这个超平面可以用如下线性方程表示：

$w^Tx+b=0$

其中， $w$ 是超平面的法向量， $b$ 是偏置项。

为了方便，我们可以假设 $w$ 的长度为1，即 $∣ w ∣ = 1$ 。

那么，对于任意一个数据点 $x_i$ ，它到超平面的距离可以表示为：

$\frac{y_i(w^Tx_i+b)}{|w|}=\frac{y_i(w^Tx_i+b)}{1}=y_i(w^Tx_i+b)$

我们的目标是找到一个最优的超平面，使得所有数据点到该超平面的距离最大化。因此，我们可以将该问题转化为以下最大化问题：

$max_{w,b}\min_{i=1,2,...,n}{y_i(w^Tx_i+b)}$

其中， $w$ 和 $b$ 是需要求解的参数。

该问题的解可以通过拉格朗日对偶性来求解。首先，我们可以将上述问题转化为如下的拉格朗日函数：

$L(w,b,\alpha)=\frac{1}{2}|w|^2-\sum_{i=1}^n\alpha_i[y_i(w^Tx_i+b)-1]$

其中， $\alpha_i$ 是拉格朗日乘子。然后，我们可以求解其对偶问题：

$\min_{\alpha}\frac{1}{2}\sum_{i,j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^n\alpha_iy_i+\sum_{i=1}^n\alpha_i$

其中， $\alpha$ 是需要求解的拉格朗日乘子向量。

通过求解上述对偶问题，我们可以得到最优的 $\alpha$ ，然后可以通过如下公式求解 $w$ 和 $b$ ：

$w=\sum_{i=1}^n\alpha_iy_ix_i$

$b=y_k-\sum_{i=1}^n\alpha_iy_ix_i^Tx_k$

其中， $k$ 是一个支持向量点，即对于 $\alpha_k>0$ ，有 $y_k(w^Tx_k+b)=1$ 。

最后，我们可以将上述公式代入分类超平面的方程中，得到最终的分类器

最终的分类器可以表示为：

$f(x)=\operatorname{sign}(w^Tx+b)=\operatorname{sign}\left(\sum_{i=1}^n\alpha_iy_ix_i^Tx+b\right)$

其中， $\operatorname{sign}$ 是符号函数，如果参数大于等于0则返回1，否则返回-1。

需要注意的是，在实际应用中，我们可能会遇到非线性可分的情况，此时可以通过核函数将数据映射到高维空间，使得数据在该空间中线性可分。这时，SVM算法的公式推导与线性可分的情况相似，只是需要在计算内积时使用核函数，即将 $x_i^Tx_j$ 替换为 $\kappa(x_i,x_j)$ ，其中 $\kappa$ 是一个核函数。

以上就是SVM算法的公式推导过程，通过最大化支持向量到分类超平面的距离，SVM算法可以在高维空间中寻找最优的分类超平面，从而实现对数据的分类。

代码示意

import numpy as np

class SVM:
    def __init__(self, C=1.0, kernel='linear', degree=3, gamma='auto'):
        self.C = C
        self.kernel = kernel
        self.degree = degree
        self.gamma = gamma
        self.alpha = None
        self.b = None
        self.X = None
        self.y = None

    def fit(self, X, y):
        self.X = X
        self.y = y

        # Compute the kernel matrix
        K = self._compute_kernel(X, X)

        # Set up the optimization problem
        n_samples = X.shape[0]
        P = K * np.outer(y, y)
        q = -np.ones(n_samples)
        G = np.vstack((np.diag(-np.ones(n_samples)), np.diag(np.ones(n_samples))))
        h = np.hstack((np.zeros(n_samples), self.C * np.ones(n_samples)))
        A = y.reshape(1, -1)
        b = np.zeros(1)

        # Solve the optimization problem
        from cvxopt import matrix, solvers
        solvers.options['show_progress'] = False
        alpha = np.ravel(matrix(solvers.qp(matrix(P), matrix(q), matrix(G), matrix(h), matrix(A), matrix(b))['x']))
        self.alpha = alpha

        # Calculate the intercept
        sv = self.alpha > 1e-5
        ind = np.arange(len(self.alpha))[sv]
        self.b = 0
        for i in ind:
            self.b += y[i]
            self.b -= np.sum(self.alpha * y * K[:, i])
        self.b /= len(ind)

    def predict(self, X):
        # Compute the kernel matrix between the test data and the training data
        K = self._compute_kernel(X, self.X)

        # Make predictions using the kernel matrix and the support vectors
        y_pred = np.dot(K.T, self.alpha * self.y) + self.b
        y_pred = np.sign(y_pred)

        return y_pred

    def _compute_kernel(self, X1, X2):
        if self.kernel == 'linear':
            K = np.dot(X1, X2.T)
        elif self.kernel == 'poly':
            K = (np.dot(X1, X2.T) + 1) ** self.degree
        elif self.kernel == 'rbf':
            if self.gamma == 'auto':
                gamma = 1.0 / X1.shape[1]
            else:
                gamma = self.gamma

丰。。

关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
SVM算法

需要注意的是，在实际应用中，我们可能会遇到非线性可分的情况，此时可以通过核函数将数据映射到高维空间，使得数据在该空间中线性可分。它的核心思想是最大化分类边界的间隔，并利用支持向量来确定最优的超平面，从而实现高效的分类。以上就是SVM算法的公式推导过程，通过最大化支持向量到分类超平面的距离，SVM算法可以在高维空间中寻找最优的分类超平面，从而实现对数据的分类。寻找最优的超平面：在给定的训练数据中，SVM算法会寻找一个最优的超平面，使得将数据分为两个类别的间隔最大化。通过求解上述对偶问题，我们可以得到最优的。
复制链接

扫一扫