关于支持向量机(SVM)的高斯核和惩罚因子C的理解（简单易懂）

最新推荐文章于 2025-03-18 23:12:12 发布

林立民爱洗澡

最新推荐文章于 2025-03-18 23:12:12 发布

阅读量3.6w

点赞数 55

分类专栏：数据挖掘算法文章标签：支持向量机高斯核惩罚因子 SVM 核函数

本文链接：https://blog.csdn.net/lin_limin/article/details/81135754

版权

本文深入浅出地介绍了支持向量机(SVM)中的高斯核函数和惩罚因子C。高斯核函数通过映射使得非线性数据在高维空间变得线性可分，而惩罚因子C控制模型的复杂度，平衡过拟合和欠拟合。参数σσ的选择影响分类精细度，C的大小则影响模型的风险权衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　跟小伙伴探讨了支持向量机(Support Vector Machine, SVM)，不自觉地就将话题拉向了高斯核函数和惩罚因子C。本文用简单易懂的形式呈现了自己对于高斯核函数和惩罚因子C的理解。
　　为什么说高斯核对应的映射函数将原始特征空间映射成了无限维空间？高斯核函数的参数 $\sigma$ 如何选择？惩罚因子C的加入有何意义？C的取值大小对于SVM的模型有何影响？后文将围绕这几个问题进行探讨。

1 理解高斯核函数

1.1 为什么要有核函数

　　当数据集在原始特征中不是线性可分的时候，支持向量机采用了引入映射函数 $\Phi ( \cdot )$ 的策略：通过映射函数将原始特征空间映射为更高维的空间，在原始空间中不可分的数据在高维空间中可能变成线性可分，此时再在高维空间中运用SVM。
　　用一张图片直观地解释这一思想。

图1 映射函数示意

　　那么要实现非线性SVM模型，我们就找出一个合适的映射函数 $\Phi ( \cdot )$ ，把特征空间映射到高维空间，在高维空间对样本分类！！So easy!!
　　可是仔细想想，每次都要显式地找到一个映射函数有没有必要？我们不是要在高维空间中对样本分类嘛？如果样本 $\Phi ({x_i})$ 与样本 $\Phi ({x_j})$ 的距离 $\left\| {\Phi ({x_i}) - \Phi ({x_j})} \right\|$ 很近，我们就把样本 ${x_i}$ 和 ${x_j}$ 分为同一类不就好了吗？那我们不知道映射函数 $\Phi ( \cdot )$ 的基础上能不能计算 $\left\| {\Phi ({x_i}) - \Phi ({x_j})} \right\|$ 呢？核函数说：我来。
　　核函数的诀窍在于解决了映射后高维空间中样本距离 $\left\| {\Phi ({x_i}) - \Phi ({x_j})} \right\|$ 的计算，但又不显式地展示出映射函数 $\Phi ( \cdot )$ 。
　　通常表示为：
$\kappa ({x_1},{x_2}) = < \Phi ({x_1}),\Phi ({x_2}) > \tag{1}$
　　从而有：

∥ Φ (x i) - Φ (x j) ∥ 2 = < Φ (x 1) - Φ (x 2), Φ (x 1) - Φ (x 2) > = < Φ (x 1), Φ (x 1) > - 2 < Φ (x 1), Φ (x 2) > + < Φ (x 2), Φ (x 2) > = κ (x 1, x 1) - 2 κ (x 1, x 2) + κ (x 2, x 2)

最低0.47元/天解锁文章