支持向量机(笔记)

在支持向量机(Support Vector Machine, SVM)中,"间隔"(margin)和"支持向量"(support vectors)是两个重要的概念,它们直接影响了SVM的性能和理论基础。

间隔(Margin):

间隔是支持向量机中的一个重要概念,指的是决策边界(或称为超平面)与离它最近的训练样本点之间的距离。在二分类情况下,间隔可以理解为决策边界两侧最靠近边界的训练样本点到边界的距离之和的一半。

具体地,对于线性可分的情况,支持向量机的目标是找到一个最大间隔的超平面,即找到能够使得间隔最大化的决策边界。这个最大化间隔的过程可以通过求解一个凸优化问题来实现,通常使用拉格朗日乘子法来进行求解。

支持向量(Support Vectors):

支持向量是指距离超平面最近的那些训练样本点。它们是支持向量机模型中决策边界的关键组成部分,因为它们决定了间隔的大小和方向。在训练过程中,支持向量机通过这些支持向量来定义决策边界,并且只有支持向量才对最终的分类决策有影响。

支持向量不仅限于位于间隔边界上的样本点,有时也包括一些位于间隔边界以内的样本点,尤其是对于软间隔支持向量机(soft-margin SVM)来说,它们可以处于间隔边界的内部,但对分类器的构建和性能仍然具有重要影响。

对偶性质和拉格朗日对偶:

  1. 拉格朗日对偶性

    • 对于一个原始优化问题,其拉格朗日函数由目标函数和约束条件构成。通过引入拉格朗日乘子,可以得到一个与原始问题等价的对偶问题。
    • 拉格朗日对偶问题的关键是通过最大化拉格朗日函数关于拉格朗日乘子的下界来得到对偶问题。
  2. 对偶问题的形式

    • 原始问题的对偶问题通常是一个极小极大问题,即先极小化拉格朗日函数关于原变量,再极大化关于乘子。
  3. 求解方法

    • 对偶性理论:利用对偶性质可以将原始问题转化为对偶问题,通常对偶问题更容易求解或者提供更多有用的信息,例如在SVM中,对偶问题可以通过核技巧来实现非线性分类。

    • KKT条件:Karush-Kuhn-Tucker (KKT)条件提供了原始问题与对偶问题之间的联系,并且在解决对偶问题时可以用来验证解的正确性。

求解步骤:

  1. 构建拉格朗日函数:将原始优化问题的目标函数和约束条件转化为拉格朗日函数,引入拉格朗日乘子。

  2. 推导对偶函数:通过最大化拉格朗日函数关于乘子的下界,得到对偶函数。

  3. 求解对偶问题:对偶函数通常是一个凸优化问题,可以通过各种凸优化方法求解,例如梯度下降、共轭梯度法、内点法等。

  4. 验证解的有效性:通过KKT条件来验证对偶问题的解是否满足原始问题的约束条件和最优性条件。

核函数在机器学习中的应用非常广泛,特别是在支持向量机(SVM)和核方法中起到了关键作用。核函数允许在高维或者无限维特征空间中进行非线性映射,从而使得原始的线性分类器能够处理复杂的非线性问题。以下是核函数的一些主要应用和特点:

主要应用:

  1. 支持向量机(SVM)

    • SVM在处理非线性分类问题时,通过核函数将数据映射到高维特征空间中,使得数据在高维空间中变得线性可分或更容易分离。
    • 常见的核函数包括线性核函数、多项式核函数、高斯径向基函数(RBF核函数)等。RBF核函数是最常用的核函数之一,它可以将数据映射到无限维的特征空间,具有良好的分类性能和泛化能力。
  2. 主成分分析(PCA)

    • 在PCA中,核主成分分析(Kernel PCA)使用核技巧对数据进行非线性映射,进而在高维空间中找到主成分。
    • 这种方法常用于处理非线性特征关系的数据集,例如图像数据、生物信息学数据等。
  3. 聚类分析

    • 核方法也广泛用于聚类分析中,特别是在谱聚类(Spectral Clustering)中,通过核函数计算数据样本之间的相似性,进而进行聚类分析。
  4. 非线性回归

    • 在回归分析中,核函数回归(Kernel Regression)通过核技巧将数据映射到高维空间中,从而进行非线性回归分析。
    • 这种方法对于处理复杂的数据分布和非线性关系特别有效。

软间隔(Soft Margin):

在支持向量机中,通常假设训练数据是线性可分的,即存在一个超平面可以将正负样本完全分开。但是在现实中,数据往往是存在噪声或者异常点的,这时候严格的线性分割可能会导致过拟合。软间隔的概念就是允许一些样本点位于间隔边界的内部或者甚至错误分类,以增加模型的鲁棒性和泛化能力。

原理:

  1. 优化问题

    • 软间隔支持向量机的优化问题可以形式化为一个带有惩罚项(正则化项)的最小化问题,其目标是最大化间隔的同时,最小化误分类样本的数量或程度。
  2. 惩罚参数(C参数)

    • C参数控制了软间隔支持向量机中误分类的惩罚程度。较大的C值意味着更严格的惩罚,模型更倾向于更少的误分类,即更接近硬间隔。
    • 较小的C值则意味着较宽松的惩罚,允许更多的误分类,从而增加了模型的鲁棒性和泛化能力。

正则化(Regularization):

正则化是机器学习中一种常见的技术,旨在防止模型过拟合训练数据,提高模型的泛化能力。在支持向量机中,正则化通常通过惩罚模型复杂度来实现,即在优化目标中添加一个正则化项。

原理:
  1. L2正则化

    • 在支持向量机中,一般采用L2正则化,即在优化目标中添加正则化项 12∥w∥2\frac{1}{2} \| \mathbf{w} \|^221​∥w∥2,其中 w\mathbf{w}w 是超平面的法向量(权重向量)。
    • 这个正则化项使得模型更倾向于选择较小的权重向量 w\mathbf{w}w,从而降低模型的复杂度,减少过拟合的风险。
  2. 正则化参数(C参数)

    • 正则化参数C在软间隔支持向量机中也扮演重要角色,它同时影响到间隔的大小和误分类的惩罚程度。
    • 较大的C值会降低正则化的影响,使得模型更倾向于拟合训练数据,可能导致过拟合;较小的C值则会增强正则化的影响,使得模型更加平滑和稳定。

总结:

  • 软间隔和正则化在支持向量机中都是用来处理复杂问题和提高模型泛化能力的重要技术。
  • 软间隔通过允许一定程度的分类错误或间隔内部点来提高模型的鲁棒性。
  • 正则化通过控制模型的复杂度,防止模型在训练数据上的过度拟合,从而提升模型在未见数据上的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值