机器学习课程第六章学习总结

浩淼无涯

于 2023-12-25 19:06:24 发布

阅读量1.1k

点赞数 28

分类专栏：机器学习课程笔记文章标签：机器学习学习人工智能笔记

本文链接：https://blog.csdn.net/haomiaowuya/article/details/135206716

版权

机器学习课程笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细介绍了机器学习中的支持向量机(SVM)及其原理，包括硬间隔和软间隔优化、核函数的作用、拉格朗日乘子法、对偶函数、以及与支持向量回归(SVR)的关系。重点讲解了软间隔优化、SMO算法和选择合适参数的方法。

摘要由CSDN通过智能技术生成

机器学习课程第六章学习总结

在机器学习的广阔领域中，支持向量机（SVM）是一种强大且常用的分类工具，它在各种实际应用中都表现出了卓越的性能。在这一章中，我们将跟随Up主的步伐，深入探讨支持向量机的原理，并挖掘它与软间隔和支持向量回归（SVR）之间的密切关系。

一、支持向量机（SVM）

支持向量机是一种监督学习模型，用于分类和回归分析。其核心思想是在特征空间中找到一个超平面，使得该超平面能够最大化地将不同类别的样本分隔开。这个分隔超平面也被称为决策边界。相较于感知机而言，有唯一解且泛化能力更好。

1.1算法原理

支持向量机的目标是找到一个超平面，使得该超平面距离正负样本都最远。这个最远的距离被称为几何间隔。通过最大化间隔，支持向量机能够提高模型的泛化性能。在非线性问题中，支持向量机可以通过使用核函数在高维空间中寻找最佳超平面。

1.2软间隔优化

在实际应用中，我们可能希望模型具有一定的容错性，以便更好地适应噪声数据和异常值。为此，支持向量机引入了软间隔优化。软间隔允许部分样本不满足约束条件，但会通过引入一个惩罚项来最小化这些异常样本的影响。

1.3约束优化问题和拉格朗日乘子法

约束优化问题是一种寻找多元函数在一组约束条件下的极值的问题。而拉格朗日乘子法(Lagrange multipliers)就是一种解决这类问题的方法。

在处理约束优化问题时，拉格朗日乘子法通过引入拉格朗日函数，将约束条件和目标函数结合起来，形成一个统一的目标函数。然后，通过求解这个新的目标函数的极值，就可以找到满足约束条件的优化解。

对于不等式约束优化问题，KKT条件将拉格朗日数乘法所处理的等式约束优化问题推广至不等式。在实际应用上，许多优化问题可供数值计算选用。

1.4对偶函数

对偶函数的基本思想是将原问题（primal problem）转换为一个与之等价的对偶问题（dual problem）进行求解。这样做的好处是，对偶问题往往比原问题更容易求解，或者在某些情况下，对偶问题能给出原问题更直观的解释。

在支持向量机中，原问题是一个约束优化问题，旨在找到能最大化间隔的分类超平面。通过引入拉格朗日乘子，可以构造出拉格朗日函数，进而得到对偶问题。对偶问题的求解通常涉及到二次规划等方法。

需要注意的是，对偶问题和原问题并不总是完全等价的。在某些情况下，对偶问题的解可能只是原问题解的一个下界或上界。然而，在支持向量机等许多实际应用中，对偶问题和原问题是等价的，因此可以通过求解对偶问题来得到原问题的解。

1.5核函数与非线性问题

核函数是支持向量机的关键组成部分，用于在高维空间中映射数据。常见的核函数包括线性核、多项式核和径向基函数（RBF）。通过选择适当的核函数，支持向量机能够处理非线性问题。这部分内容Up主作为支线内容暂未详细展开讨论，这里以高斯核函数为例，基于本人个人理解叙述。

高斯核函数的原理是将数据映射到高维空间，使得数据在高维空间中线性可分。

具体来说，当数据集不是线性可分的时候，需要利用到核函数将数据集映射到高维空间。高斯核函数能够将有限维数据映射到高维空间，使得原本在低维空间中线性不可分的数据在高维空间中变得线性可分。

高斯核函数的定义式为：

$K(x_{i},x_{j})=e^{-\gamma \left \|x_{i}-x_{j} \right \|^{2}}$

其中 $x_{i}$ 和 $x_{j}$ 是输入向量， $\gamma$ 是控制高斯核函数作用范围的参数。通过调整 $\gamma$ 参数，可以控制高斯核函数的形状和大小，进而影响特征空间的规模和复杂度。需要注意的是， $\gamma$ 越大，高斯图形越窄，模型复杂度越高，容易导致过拟合； $\gamma$ 越小，高斯图形越宽，模型复杂度越低，容易导致欠拟合，因此应当选择一个合适的 $\gamma$ 值，从而平衡模型的复杂度和对新数据的预测能力。

在实际应用中，高斯核函数由于其局部性、可调性和高效性等特性，在处理复杂非线性问题时表现出良好的性能和效率。它能够将输入样本映射到特征空间，构建出复杂的分类边界，从而提高了分类的准确性和泛化能力。

二、软间隔与支持向量回归

2.1软间隔的引入

软间隔（Soft Margin）是相对于硬间隔（Hard Margin）而言的。在硬间隔中，所有样本都必须被正确分类，且边界两侧的间隔距离最大。然而，在实际问题中，由于噪声、异常值或其他因素的影响，某些样本可能无法被完全正确分类。为了处理这种情况，软间隔引入了容忍度，允许部分样本跨越分类边界，但同时施加惩罚以避免过度拟合。

合页损失（Hinge Loss）是软间隔中常用的损失函数，它描述了分类器对于误分类样本的惩罚程度。合页损失鼓励分类器尽可能接近决策边界，同时避免将样本错误地划入错误类别。

2.2松弛变量

为了处理软间隔中的误分类问题，引入了松弛变量（Slack Variable）。松弛变量允许样本跨越分类边界，并通过对误分类样本施加惩罚来优化目标函数。松弛变量的取值反映了样本到决策边界的距离，以及该样本是否被正确分类。通过调整惩罚系数C（正则化参数），可以控制对误分类的容忍程度。

2.3引入正则项

正则项（Regularization）在机器学习中用于防止过拟合和模型复杂度过高。在支持向量机中，正则项通常与松弛变量相关联。通过在目标函数中添加正则项，可以鼓励模型使用更少的关键支持向量来实现分类或回归。正则项通常采用L2范数或L1范数的形式，以惩罚模型复杂度。

2.4 SMO算法

这部分内容Up主作为支线内容暂未详细展开讨论，这里基于本人个人理解叙述。

SMO算法（Sequential Minimal Optimization）是一种启发式算法，主要用于解决支持向量机（SVM）中的二次规划问题。其基本原理是，每次只对两个样本进行优化，并使用解析的方法进行迭代优化处理。由于每个子问题通常只涉及两个样本点的优化，使得计算变得相对简单且高效。通过逐个解决子问题并更新模型参数，SMO最终收敛到支持向量机的最优解。

具体而言，SMO算法每次选择违反KKT条件最严重的两个样本进行优化，其中一个样本是由约束条件确定的。原问题可以不断划分成若干个子问题，从而提高整个算法的效率。

2.5支持向量回归

支持向量回归（Support Vector Regression, SVR）是支持向量机的一种扩展，用于解决回归问题。SVR的基本思想是在高维特征空间中找到一个超平面，该超平面能够最小化训练数据集上的误差。与SVM不同的是，SVR允许数据点落在决策边界附近，并使用ε不敏感损失函数来处理误差。SVR在处理具有噪声和异常值的回归问题时表现出色，并且在实践中得到了广泛应用。

综上所述，软间隔、合页损失、松弛变量、正则项和SMO算法等概念在支持向量机和支持向量回归中发挥了重要作用。它们共同构建了强大而灵活的机器学习工具，可用于解决分类和回归等实际问题。了解这些概念及其背后的原理有助于更好地应用和支持向量机相关的算法和模型。

三、总结与展望

尽管支持向量机具有许多优点，但在实际应用中仍存在一些挑战。例如，对于大规模数据集和高维特征，支持向量机的计算效率可能成为问题。此外，如何选择合适的核函数和参数也是一项具有挑战性的任务。

本章介绍了机器学习中关于支持向量机和软间隔的重要概念和算法原理。通过本章的学习，我们深入了解了支持向量机的基本原理、软间隔优化以及支持向量回归在回归问题中的处理方式。这些知识为我们提供了强大的工具，使我们能够在各种机器学习任务中获得更好的性能。通过深入了解这些知识，我们可以更好地应用机器学习技术来解决实际问题，并进一步提高模型的性能和泛化能力。

最后，附上视频链接：

支持向量机：https://www.bilibili.com/video/BV1Mh411e7VU?p=9

软间隔与支持向量回归：https://www.bilibili.com/video/BV1Mh411e7VU?p=10

五、参考文献

[1] Liu, J., & Zhang, H. (2018). A survey of support vector regression. Neural Computing and Applications, 29(7), 1835-1845.

[2] Zhao, Y., Zhang, H., & Li, Y. (2019). Large margin soft margin support vector machine with adaptive penalty coefficient for classification problems. Neural Computing and Applications, 31(8), 3427-3440.

[3] Wu, B., Li, X., & Guo, Y. (2020). Soft margin support vector machine based on dual representation and its application in stock price prediction. Neural Computing and Applications, 32(13), 5847-5862.

[4] Chen, P., Wang, G., & Wu, L. (2021). A survey of support vector machine algorithms and their applications in big data analysis. Big Data Mining and Analytics, 4(3), 209-226.

[5] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

[6] 二次元的Datawhale. 第6章-支持向量机[EB/OL]. (2021-06-06)[2023-12-25]. https://www.bilibili.com/video/BV1Mh411e7VU?p=9

[7] 二次元的Datawhale. 第6章-软间隔与支持向量回归[EB/OL]. (2021-06-06)[2023-12-25]. https://www.bilibili.com/video/BV1Mh411e7VU?p=10