机器学习小记-svm

lxznjw

已于 2023-07-11 09:46:42 修改

阅读量341

点赞数

分类专栏：机器学习文章标签：机器学习

于 2023-06-29 12:04:18 首次发布

本文链接：https://blog.csdn.net/qq_40140808/article/details/131451611

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

支持向量机（Support Vector Machine，简称SVM）是一种常用的监督学习算法，用于分类和回归问题。SVM的主要目标是找到一个最优的超平面来划分不同类别的样本。下面是SVM的基本过程和步骤：

数据准备：收集和准备用于训练和测试的数据集。每个样本应该包含一组特征和对应的类别标签。
特征预处理：对特征进行预处理，例如特征缩放、归一化或标准化，以确保不同特征的尺度一致。
特征选择：根据具体问题和数据集的特点，选择最具代表性和重要性的特征，以降低维度和减少冗余。
模型训练：使用训练数据集训练SVM模型。SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并使得两个类别之间的间隔最大化。
核函数选择：选择合适的核函数，用于将数据映射到高维特征空间中，以处理非线性可分的问题。常用的核函数包括线性核、多项式核和高斯核等。
超参数调优：调整SVM模型的超参数，如正则化参数c、核函数的参数等，以找到最佳的模型配置。可以使用交叉验证等技术进行超参数调优。
模型评估：使用测试数据集评估训练好的SVM模型的性能。常见的评估指标包括准确率、精确率、召回率、F1分数等。
模型应用：使用训练好的SVM模型对新的未标记数据进行预测和分类。

最优超平面

最优的超平面是指在支持向量机（SVM）中找到的能够最好地分隔不同类别样本的超平面。最优超平面的选择是通过最大化类别间的间隔来实现的，这个间隔被称为间隔最大化。

具体而言，对于二分类问题，最优的超平面是一个能够将两个类别样本分隔开的直线（在二维空间中）或一个超平面（在高维空间中）。该超平面被选为满足以下条件的最佳超平面：

距离最大化：最优超平面应该能够使得两个类别样本之间的距离最大化，也就是最大化支持向量到超平面的距离。这个距离被称为间隔（margin），最优超平面应该能够使间隔最大化。
分类正确：最优超平面应该能够正确地将不同类别的样本分隔开，使得同一类别的样本位于超平面的同一侧。

在SVM中，通过求解一个凸优化问题，可以找到最优超平面的参数，使得满足上述条件。具体的优化算法通常使用拉格朗日乘子法和核函数技巧，可以将问题转化为一个二次规划问题进行求解。

最优超平面的选择是SVM的核心，它具有较好的泛化性能和较强的分类能力。通过找到最优超平面，SVM能够在新的未见过的样本上进行准确的分类预测。

核函数

核函数是支持向量机（SVM）中的一项重要技术，它用于将数据映射到高维特征空间中，从而使得SVM可以处理非线性可分的问题。核函数的作用是在低维输入空间中计算两个样本之间的相似性，而不需要显式地进行高维特征空间的计算。

通过核技巧（Kernel Trick），我们可以在低维空间中进行计算，而无需显式地进行高维特征空间的计算。这是因为核技巧利用了核函数的性质，通过在低维空间中计算核函数的结果，间接地实现了在高维特征空间中的计算。

具体而言，假设我们有一个核函数K(x, y)，它可以将输入样本x和y映射到高维特征空间中的内积。在低维空间中，我们无法直接计算高维特征空间中的内积，但通过核技巧，我们可以直接计算核函数K(x, y)的值，而不需要显式地计算高维特征空间中的具体特征表示。

这种技巧的好处是避免了在高维空间中的复杂计算，从而提高了计算效率。在支持向量机（SVM）中，核技巧允许我们在低维空间中使用核函数进行模型训练和预测，而无需显式地将数据映射到高维特征空间中。

核技巧的使用使得支持向量机能够处理非线性可分的问题。通过选择适当的核函数，我们可以在低维空间中构建一个非线性的决策边界，从而提高模型的分类性能。

以下是SVM（支持向量机）中常用的核函数及其公式的详细解释：

线性核函数（Linear Kernel）
线性核函数是SVM最简单的核函数之一，其公式如下：
$K(x, y) = x^T y$
其中，(x)和(y)表示输入样本的特征向量。
多项式核函数（Polynomial Kernel）
多项式核函数通过将特征映射到高维空间来解决非线性问题，其公式如下：
$K(x, y) = (x^T y + c)^d$
其中，(c)是常数项，(d)是多项式的阶数。
高斯核函数（Gaussian Kernel）
高斯核函数也被称为径向基函数（Radial Basis Function，RBF），它是一种常用的非线性核函数，其公式如下：
$\exp\left(-\frac{{\|x-y\|^2}}{{2\sigma^2}}\right)$
其中，(\sigma)是控制高斯核函数宽度的参数，(|\cdot|)表示向量的范数。
拉普拉斯核函数（Laplacian Kernel）
拉普拉斯核函数也是一种常用的非线性核函数，其公式如下：
$\exp\left(-\frac{{\|x-y\|}}{{\sigma}}\right)$
其中，(\sigma)是控制拉普拉斯核函数宽度的参数。
Sigmoid核函数
Sigmoid核函数通过模拟神经网络中的Sigmoid激活函数来引入非线性，其公式如下：
$\tanh(\alpha x^T y + c)$
其中， $(\alpha$ )和 $(c$ )是可调参数。

这些核函数可以用于SVM中，通过将数据映射到高维空间来处理非线性问题。选择适当的核函数取决于数据的特点和任务的要求。核函数的选择可以对SVM的分类性能产生显著影响，因此在实际应用中需要根据具体情况进行选择和调整。

正则化参数

正则化参数是机器学习算法中的一个重要参数，用于控制模型的复杂度，并避免过拟合（overfitting）的问题。正则化通过在损失函数中引入正则化项，惩罚模型的复杂度，从而鼓励模型选择较简单的特征或参数组合。

在许多机器学习算法中，正则化参数通常表示为λ（有时也称为α），它是一个非负数。λ越大，正则化的效果越明显，模型的复杂度越低。反之，λ越小，正则化的效果越弱，模型的复杂度越高。

正则化参数的选择可以通过交叉验证等方法进行调优。通常情况下，选择一个适当的正则化参数可以帮助提高模型的泛化能力，避免过拟合问题，并在训练集和测试集上都取得较好的性能。

以下是一些常见的机器学习算法中的正则化参数：

线性回归中的正则化参数：岭回归（Ridge Regression）和Lasso回归（Lasso Regression）中的正则化参数控制模型的复杂度。
逻辑回归中的正则化参数：逻辑回归模型中的正则化参数可以控制特征的权重，如岭回归中的L2正则化和Lasso回归中的L1正则化。
支持向量机中的正则化参数：支持向量机模型中的正则化参数C（对应于λ的倒数）控制了模型的复杂度和容错能力。
神经网络中的正则化参数：在神经网络中，常用的正则化方法包括L1正则化和L2正则化，它们通过权衡损失函数和正则化项来控制模型的复杂度。

选择合适的正则化参数需要根据具体的算法和问题进行调优。一般来说，通过尝试不同的正则化参数值，并在交叉验证集上评估模型性能，选择在测试集上表现最佳的正则化参数。这可以帮助平衡模型的复杂度和泛化能力，以获得更好的预测性能。

优化算法

在支持向量机（SVM）中，通常使用优化算法来更新模型的参数。其中最常用的算法是序列最小最优化（Sequential Minimal Optimization，SMO）算法。

SMO算法是一种迭代算法，用于求解SVM的对偶问题。它的基本思想是每次选择两个样本点作为更新对象，固定其他样本点的参数，通过优化这两个样本点对应的拉格朗日乘子来更新模型参数。SMO算法通过解析求解拉格朗日乘子的更新步骤，通过最小化目标函数来逐步优化模型。

SMO算法的步骤如下：

初始化拉格朗日乘子和偏置项。
选择两个样本点作为更新对象，并固定其他样本点的参数。
使用优化方法来更新这两个样本点对应的拉格朗日乘子。
更新模型的偏置项。
重复步骤2-4，直到收敛或达到迭代次数。

除了SMO算法，还有其他一些优化算法可以用于更新SVM的参数，如梯度下降算法、坐标下降算法等。具体选择哪种算法取决于问题的特点和要求，以及算法的效率和收敛性能。

需要注意的是，SVM的软间隔和核函数扩展也会对参数更新算法产生影响。对于软间隔，需要引入松弛变量和相应的惩罚项，更新算法需要进行调整。对于核函数扩展，可以通过核技巧将非线性问题映射到高维特征空间，并在该空间中进行参数更新。

总而言之，SVM的参数更新可以采用不同的优化算法，其中最常用的是SMO算法。选择合适的算法取决于具体的问题和数据特征。

高斯核SVM与RBF神经网络之间的关系

高斯核（Gaussian Kernel）SVM和RBF神经网络（Radial Basis Function Neural Network）之间有一些相似之处，但也有一些关键的区别。

相似之处：
- 高斯核SVM和RBF神经网络都使用了高斯核函数来进行非线性映射。
- 它们都可以处理非线性问题，通过将数据映射到高维特征空间来实现线性可分或近似线性可分。
- 它们都利用了径向基函数（Radial Basis Function）的概念，通过基于距离的相似度来进行数据转换。
区别：
- 目标函数：高斯核SVM的目标是找到一个最大间隔的超平面来分隔不同类别的样本，它是一个凸优化问题。而RBF神经网络的目标是拟合训练数据，以最小化预测误差。
- 模型结构：高斯核SVM是一种非常简洁的模型，通过支持向量来表示分类决策边界。而RBF神经网络是一种多层神经网络结构，具有输入层、隐藏层和输出层，隐藏层使用了RBF作为激活函数。
- 参数学习：高斯核SVM通过优化算法（如SMO算法）学习最优的支持向量和分隔超平面参数。RBF神经网络使用传统的反向传播算法来学习网络的权重和偏置。

总的来说，高斯核SVM和RBF神经网络在处理非线性问题时都利用了高斯核函数的特性，通过将数据映射到高维特征空间来实现线性可分或近似线性可分。它们在模型结构和参数学习上有所不同，适用于不同的问题和任务。高斯核SVM更注重于分类问题，而RBF神经网络更注重于拟合和预测问题。选择适当的方法取决于具体的应用场景和需求。

SVM与BP神经网络和C4.5决策树的区别与联系

SVM（支持向量机）、BP神经网络（反向传播神经网络）和C4.5决策树是机器学习中常见的三种分类算法，它们在一些方面存在区别与联系：

区别：

模型结构：
- SVM是一种基于间隔最大化的线性分类器，通过找到一个最优超平面来分隔不同类别的样本。
- BP神经网络是一种多层前馈神经网络，通过多层神经元的连接和反向传播算法来学习权重和偏置。
- C4.5决策树是一种基于特征选择和信息增益的决策树算法，通过划分特征空间来构建决策树模型。
数据分布假设：
- SVM假设数据是线性可分或近似线性可分的，通过核函数进行非线性映射来处理非线性问题。
- BP神经网络在理论上可以处理任意复杂度的非线性问题，但对于复杂问题需要适当的网络结构和训练策略。
- C4.5决策树可以处理离散型和连续型特征，不需要对数据分布做出显式的假设。
训练方法：
- SVM使用凸优化方法（如SMO算法）来求解目标函数，寻找最优的分隔超平面。
- BP神经网络使用反向传播算法来迭代地调整权重和偏置，以最小化预测误差。
- C4.5决策树使用信息增益和特征选择的方法，递归地构建决策树模型。

联系：

非线性问题处理：SVM和BP神经网络都可以处理非线性分类问题，通过引入非线性映射和隐藏层来拟合非线性边界。
适应性：BP神经网络和C4.5决策树都可以根据数据进行自适应学习，根据训练数据调整模型参数。
高维数据：SVM和BP神经网络对于高维数据具有较好的适应性，可以处理大量特征的情况。

在实际应用中，选择适当的算法取决于数据的性质、问题的复杂性和可解释性的需求。SVM适用于处理线性可分和非线性可分问题，BP神经网络适用于大规模数据和复杂非线性问题，而C4.5决策树适用于可解释性要求高的情况下。

SVM对噪声敏感的原因

SVM（支持向量机）在某些情况下对噪声比较敏感，这是由于其算法原理和间隔最大化的特性所致。

以下是一些可能导致SVM对噪声敏感的原因：

间隔最大化：SVM的目标是找到一个最大间隔的超平面来分隔不同类别的样本。由于SVM关注的是在边界上的支持向量，它对边界附近的噪声敏感。即使只有少量噪声样本，也可能对决策边界产生较大的影响。
数据不完美分布：SVM假设数据是线性可分或近似线性可分的，这对噪声敏感。如果数据中存在噪声或离群点，它们可能会干扰决策边界的正确划分，导致分类错误。
核函数选择：SVM使用核函数进行非线性映射，但选择不合适的核函数可能导致模型对噪声更加敏感。某些核函数可能会过度拟合噪声，使得模型对噪声样本的影响更大。
类别不平衡：如果数据集中的类别不平衡（即一个类别的样本数量远远超过另一个类别），SVM可能更容易受到少数类别中的噪声样本的干扰，因为它更关注间隔较小的类别。

为了减少SVM对噪声的敏感性，可以采取以下措施：

数据清洗：通过去除或修正噪声样本，可以减少噪声对SVM的影响。
特征选择或降维：选择与目标相关的有效特征，或使用降维技术来减少噪声的影响。
核函数选择和调参：选择合适的核函数并调整相关参数，以平衡模型的复杂性和对噪声的鲁棒性。
类别平衡：通过采样技术或类别权重调整来处理类别不平衡问题，使模型更加公平地对待不同类别。

需要根据具体问题和数据集的特点来综合考虑以上因素，并进行适当的调整和处理，以降低SVM对噪声的敏感性。

lxznjw

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习小记-svm

支持向量机（Support Vector Machine，简称SVM）是一种常用的监督学习算法，用于分类和回归问题。SVM的主要目标是找到一个最优的超平面来划分不同类别的样本。下面是SVM的基本过程和步骤：数据准备：收集和准备用于训练和测试的数据集。每个样本应该包含一组特征和对应的类别标签。特征预处理：对特征进行预处理，例如特征缩放、归一化或标准化，以确保不同特征的尺度一致。特征选择：根据具体问题和数据集的特点，选择最具代表性和重要性的特征，以降低维度和减少冗余。
复制链接

扫一扫