【漫话机器学习系列】220.支持向量机的软间隔分类（Soft-Margin SVM Classification）-CSDN博客

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/147446911

图解支持向量机的软间隔分类（Soft-Margin SVM Classification）

支持向量机（SVM）是一种经典的监督学习方法，特别适用于小样本、高维度的数据分类任务。相比于硬间隔 SVM，软间隔 SVM（Soft-Margin SVM）更适合处理现实中常见的、不可完全线性可分的数据。本篇文章将结合一张手绘图，深入浅出地讲解软间隔 SVM 的目标函数、核心变量及其含义。

一、软间隔的引入：为什么需要软间隔？

在传统的硬间隔 SVM 中，要求所有的训练样本必须被完全正确地分类，并且不允许有任何噪声或重叠。但现实世界的数据往往不可完全线性可分，或者存在一些“异常点（Outliers）”，此时硬间隔的假设不再成立。

于是我们引入了“软间隔”概念，允许：

一部分样本落在间隔边界之间；
少量样本被错误分类；
同时通过惩罚机制控制误分类样本对模型的影响。

二、目标函数的结构与含义

手绘图中的公式如下：

$\min \left( \frac{1}{2} \|w\|^2 + C \sum_{i} \xi_i \right)$

让我们逐部分解读这个目标函数：

第一部分： $\frac{1}{2} \|w\|^2$

代表 最大化间隔 的目标。
其中 w 是分类超平面的法向量，∥w∥ 代表超平面与支持向量之间的距离。
最小化该项的结果是使得分类边界尽可能远离样本，从而提高模型的泛化能力。

👉 图中标注为“参数 w”。

第二部分： $C \sum_{i} \xi_i$

$\xi_i$ 是松弛变量（slack variables），用来衡量每个样本对分类边界的“违反程度”。
C 是一个 超参数，用于权衡“最大间隔”与“分类错误”的代价。

👉 图中解释如下：

超参数 C：用来控制误分类的惩罚强度。
- C 越大，对错误的容忍度越低，分类器趋向硬间隔；
- C 越小，容忍错误的能力更强，边界更宽松，模型更稳定。
$\xi_i$ ：表示第 i 个样本的违约程度（违反边界的程度）。

三、松弛变量 $\xi_i$ 的含义

图中对于 $\xi_i$ 有以下说明：

$\xi_i$ 值	含义
=0	样本点处在正确一侧，且在间隔边界之外（“理想分类”）
$0<\xi_i<1$	样本点在正确一侧，但落在了间隔边界之间
≥ 1	样本点被错误分类

总结来说：

松弛变量 $\xi_i$ 是软间隔 SVM 的核心，它使得分类器在遇到噪声数据时能更加鲁棒。

四、SVM Soft-Margin 的优势

鲁棒性强：

即使存在异常值，模型依然可以学到较好的决策边界。

泛化能力强：

软间隔通过松弛变量控制边界的柔性，有助于防止过拟合。

可调节性：

通过超参数 C 控制模型对错误分类的容忍度，具备较强的灵活性。

五、sklearn 中的实现

在 Python 的 scikit-learn 中，我们可以使用 SVC 类来实现软间隔支持向量机：

from sklearn.svm import SVC
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 生成模拟数据
X, y = make_classification(n_samples=100, n_features=2, n_informative=2,
                           n_redundant=0, n_clusters_per_class=1, flip_y=0.1, random_state=42)

# 划分训练和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练 SVM 模型
clf = SVC(kernel='linear', C=1.0)  # C 为软间隔惩罚参数
clf.fit(X_train, y_train)

# 模型评估
print("准确率：", clf.score(X_test, y_test))