机器学习——支持向量机（SVM）（2）

最新推荐文章于 2024-09-01 23:36:16 发布

CXDNW

最新推荐文章于 2024-09-01 23:36:16 发布

阅读量1.2k

点赞数 26

分类专栏：机器学习文章标签：机器学习支持向量机人工智能 sklearn 笔记 SVM

本文链接：https://blog.csdn.net/cxdnw/article/details/141114124

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1. 混淆矩阵（Confusion Matrix）

（1）准确率 —— 模型整体效果

（2）精确度 —— 捕捉少数类

（3）召回率（Recall）—— 捕捉少数类

（4）F1 score—— 捕捉少数类

（5）假负率

（6）特异度 —— 判错多数类的考量

（7）假正率（FPR）—— 判错多数类的考量

一、SVC理解进阶

1. C（硬间隔与软间隔）

有一些数据，可能是线性可分，但在线性可分状况下训练准确率不能达到 100%，即无法让训练误差为 0，这样的数据被称为 “存在软间隔的数据” 。此时 需要让决策边界能够忍受一小部分训练误差，就不能单纯地寻求最大边际了。

虚线超平面是由混杂在红色点中间的紫色点来决定的，所以此时，这个紫色点就是支持向量。所以软间隔让决定两条虚线超平面的支持向量可能是来自于同一个类别的样本点，而硬间隔的时候两条虚线超平面必须是由来自两个不同类别的支持向量决定的。

c 值会决定我们究竟是依赖红色点作为支持向量（只追求最大边界），还是要依赖软间隔中，混杂在红色点中的紫色点来作为支持向量（追求最大边界和判断正确的平衡）。

如果 C 值设定比较大，那 SVC 可能会选择边际较小的，能够更好地分类所有训练点的决策边界，不过模型的训练时间也会更长。如果 C 的设定值较小，那 SVC 会尽量最大化边界，尽量将掉落在决策边界另一方的样本点预测正确，决策功能会更简单，但代价是训练的准确度，因为此时会有更多红色的点被分类错误。换句话说，C 在 SVM中的影响就像正则化参数对逻辑回归的影响。

2. class_weight

对于分类问题，永远都逃不过的一个痛点就是 样本不均衡问题。样本不均衡是 指在一组数据集中，标签的一类天生占有很大的比例，但我们有着捕捉出某种特定的分类的需求的状况。

样本不均衡的情况下，分类模型天生会倾向于多数的类，让多数类更容易被判断正确，少数类被牺牲掉。因为对于模型而言，样本量越大的标签可以学习的信息越多，算法就会更加依赖于从多数类中学到的信息来进行判断。如果希望捕获少数类，模型就会失败。

其次，模型评估指标会失去意义。这种分类状况下，即便模型什么也不做，把所有标签都判断为多数类，准确率也能非常高，这使得模型评估指标 accuracy 变得毫无意义，根本无法达到特定分类的建模目的。

支持向量机中地决策仅仅受决策边界的影响，而决策边界又受到参数 C 和支持向量的影响。在支持向量机中，要大力依赖调节样本均衡的参数：SVC 类中的 class_weight 和接口 fit 中可以设定的 sample_weight。

二、模型评估指标（SVC）

单纯地追求捕捉出少数类，就会成本太高，而不顾及少数类，又会无法达成模型的效果。所以在现实中，往往在寻找捕获少数类的能力和将多数类判错后需要付出的成本的平衡。如果一个模型在能够尽量捕获少数类的情况下，还能够尽量对多数类判断正确，则这个模型就非常优秀了。为了评估这样的能力，将引入新的模型评估指标：混淆矩阵和ROC曲线。

1. 混淆矩阵（Confusion Matrix）

混淆矩阵是二分类问题的多维衡量指标体系，在样本不平衡时极其有用。在混淆矩阵中，将少数类认为是正例，多数类认为是负例。在 SVM 里，少数类为 1，多数类为 -1。普通的混淆矩阵，一般使用｛0,1｝来表示。

混淆矩阵中，永远是真实值在前，预测值在后。11 和 00 的对角线就是全部预测正确的， 01 和 10 的对角线就是全部预测错误的。基于混淆短阵，有 六个不同的模型评估指标，这些评估指标的范围都在 [0, 1] 之间，所有以 11 和 00 为分子的指标都是越接近 1 越好，所有以 01 和 10 为分子的指标都是越接近 0 越好。

对于所有的指标，用橙色表示分母，用绿色表示分子，则有：

（1）准确率——模型整体效果

准确率 Accuracy 就是所有预测正确的所有样本除以总样本，通常来说越接近 1 越好。

（2）精确度——捕捉少数类

精确度 Precision，又叫查准率，表示所有被预测为是少数类的样本中，真正的少数类所占的比例。精确度是 “ 将多数类判错后所需付出成本〞的衡量。

在支持向量机中，精确度可以被形象地表示为决策边界上方的所有点中，红色点所占的比例。精确度越高，代表捕捉正确的红色点越多，对少数类的预测越精确。精确度越低，则代表我们误伤了过多的多数类。

当每一次将多数类判断错误的成本非常高昂的时候，我们会追求高精确度。精确度越低，对多数类的判断就会越错误。当然，如果目标是不计一切代价捕获少数类，那并不在意精确度。

（3）召回率（Recall）——捕捉少数类

召回率 Recall，又被称为敏感度（sensitivity），真正率，查全率。表示所有真实为 1 的样本中，被预测正确的样本所占的比例。

在支持向量机中，召回率可以被表示为决策边界上方的所有红色点占全部样本中的红色点的比例。召回率越高，代表尽量捕捉出了越多的少数类，召回率越低，代表我们没有捕捉出足够的少数类。

召回率和精确度是此消彼长的，两者之间的平衡代表了捕捉少数类的需求和尽量不要误伤多数类的需求的平衡。如果希望不计一切代价找出少数类，那就会追求高召回率，相反如果目标不是尽量捕获少数类，那就不需要在意召回率。

（4）F1 score——捕捉少数类

同时兼顾精确度和召回率两者的调和平均数作为考量两者平衡的综合性指标，称之为 F1 measure。两个数之间的调和平均倾向于靠近两个数中比较小的那一个数，因此追求尽量高的F1 measure，能够保证精确度和召回率都比较高。F1 measure在 [0 ,1] 之间分布，越接近 1 越好。

（5）假负率

假负率（False Negative Rate），它等于 1 - Recall，用于衡量所有真实为 1 的样本中，被错误判断为 0 的。通常用得不多。

（6）特异度——判错多数类的考量

特异度（Specificity）表示所有真实为 0 的样本中，被正确预测为 0 的样本所占的比例。在支持向量机中，可以形象地表示为决策边界下方的点占所有紫色点的比例。特异度衡量了一个模型将多数类判断正确的能力。

（7）假正率（FPR）——判错多数类的考量

1-specificity 是一个模型将多数类判断错误的能力，这种能力被叫做假正率（False Positive Rate）。

在支持向量机中，假正率就是决策边界上方的紫色点（所有被判断错误的多数类）占所有紫色点的比例。当样本均衡过后，假正率会更高，因为有更多紫色点被判断错误，而样本均衡之前，假正率比较低，被判错的紫色点比较少。所以假正率其实类似于 Precision的反向指标，Precision 衡量有多少少数点被判断正确，而假正率 FPR 衡量有多少多数点被判断错误，性质是十分类似的。

三、sklearn中的混淆矩阵

四、ROC曲线和AUC面积

1. 曲线理解

建立 ROC 曲线的根本目的是 找寻 Recall 和 FPR 之间的平衡，让我们能够衡量模型在尽量捕捉少数类的时候，误伤多数类的情况会如何变化。横坐标是 FPR，代表着模型将多数类判断错误的能力，纵坐标 Recall，代表着模型捕捉少数类的能力，所以 ROC 曲线代表着，随着Recall 的不断增加，FPR 如何增加。

我们希望随着 Recall 的不断提升，FPR 增加得越慢越好，这说明我们可以尽量高效地捕捉出少数类，而不会将很多地多数类判断错误。所以，我们希望看到的图像是，纵坐标急速上升，横坐标缓慢增长，也就是在整个图像左上方的一条弧线。这代表模型的效果很不错，拥有较好的捕获少数类的能力。

中间的虚线代表着，当 recall 增加 1%，我们的 FPR 也增加 1%，也就是说，每捕捉出一个少数类，就会有一个多数类被判错，这种情况下，模型的效果就不好，这种模型捕获少数类的结果，会让许多多数类被误伤，从而增加成本。

ROC曲线通常都是凸型的。对于一条凸型 ROC 曲线来说，曲线越靠近左上角越好，越往下越糟糕，曲线如果在虚线的下方，则证明模型完全无法使用。对于一条凹型 ROC 曲线来说，应该越靠近右下角越好，凹形曲线代表模型的预测结果与真实情况完全相反，那也不算非常糟糕，只要手动将模型的结果逆转，就可以得到一条左上方的弧线了。最糟糕的就是，无论曲线是凹形还是凸型，曲线位于图像中间，和虚线非常靠近，那我们拿它无能为力。

2. sklearn 实现

# 计算ROC曲线的横坐标假正率FPR、纵坐标Recall和对应的阈值的类：
sklearn.metrics.roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_ intermediate= True）

"""
  y_true：数组，形状=[n_samples]，真实标签。
  y_score：数组，形状=[n_samples]，置信度分数，可以是正类样本的概率值，或置信度分数，或者decision_function返回的距离。
  pos_label：整数或者字符串，默认None，表示被认为是正类样本的类别。
  sample_weight：形如 [n_samples]的类数组结构，可不填，表示样本的权重。
  drop_intermediate：布尔值，默认True，如果设置为True，表示会舍弃一些。ROC曲线上不显示的阈值点，这对于计算一个比较轻量的ROC曲线来说非常有用。

  return：FPR，Recall、阈值。
"""

# 计算AUC面积：
sklearn.metrics.roc_auc_score(y_true, y_score, average=‘macro’, sample_weight=None, max_fpr=None）

补充：利用 ROC 曲线找出最佳阈值

ROC 曲线反应的是 recall 增加的时候 FPR 如何变化，也就是当模型捕获少数类的能力变强的时候，会误伤多数类的情况是否严重。我们的希望模型在捕获少数类的能力变强的时候，尽量不误伤多数类，也就是说，随着 recall 的变大，FPR 的大小越小越好。所以我们希望找到的阈值点，其实是 Recall 和 FPR 差距最大的点。这个点，又叫做 约登指数。其实这个点就是图像上离左上角最近的点，离中间虚线最远的点，也是ROC曲线的转折点。

CXDNW

关注

26
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
机器学习——支持向量机（SVM）（2）

中间的虚线代表着，当 recall 增加 1%，我们的 FPR 也增加 1%，也就是说，每捕捉出一个少数类，就会有一个多数类被判错，这种情况下，模型的效果就不好，这种模型捕获少数类的结果，会让许多多数类被误伤，从而增加成本。横坐标是 FPR，代表着模型将多数类判断错误的能力，纵坐标 Recall，代表着模型捕捉少数类的能力，所以 ROC 曲线代表着，随着Recall 的不断增加，FPR 如何增加。表示所有真实为 1 的样本中，被预测正确的样本所占的比例。
复制链接

扫一扫