机器学习自学笔记 4

支持向量机3

目录

支持向量机3

算法流程

性能量度

多类情况


算法流程

支持向量机整体上的算法流程如下:

1、数据准备:准备好需要进行训练的数据,并确认好标签和特征空间

2、选择模型参数:选择合适的核函数、算法等参数进行后续的训练流程

3、训练流程:在训练流程中主要需要解决决策边界的求解问题,需要求解出权重参数Ω、偏置参数b,完成两个参数的求解便完成了整个训练流程

4、测试流程:考察测试数据,完成预测

性能量度

在完成了模型的训练后,我们需要指标来评估整个系统的性能。识别率便是一个指标,用以衡量整个系统的识别,但是这样会不可避免地造成误解,认为识别率越高越好。事实上,在样本的先验分布不加以明确的前提下,单纯用识别率来判断系统的好坏是没有意义的。我们还需要其他的性能量度(指标)衡量整个系统的性能。如混淆矩阵、ROC曲线、AUC、EER等,接下来介绍这些性能指标。

1、混淆矩阵:混淆矩阵可以提供关于每个类别的预测情况的详细信息。

在混淆矩阵中,有TN、FP、FN、TP这四个量,其含义如下:

TN(True Negative):实际为负被预测为负的样本

FP(False Positive):实际为负被预测为正的样本

TP(True Positive):实际为正被预测为正的样本

FN(False Negative):实际为正被预测为负的样本

通过混淆矩阵我们可以直观地理解分类器的预测结果与实际结果之间的差异,并从中提取出各种性能度量,如准确率、精确率、召回率等。

2、ROC曲线

ROC曲线是一种用于评估二分类模型性能的图形表示方法。它展示了模型在不同阈值下的真阳性率(True Positive Rate, TPR)与假阳性率(False Positive Rate, FPR)之间的关系。ROC曲线的形状和位置可以帮助我们了解模型的分类能力,并提供了一种量化模型性能的方式。

在给的这张ROC曲线图示例中,展示了针对一个任务的四个不同的系统,在这个示例中,蓝色的系统的性能是最好的,因为其在相同的FP下,TP是最高的,也就是说,在所有模型中,其预测的准确率是最高的。因此,蓝色的系统的性能是最好的。

AUC:这个指标从ROC曲线中得出,其值为0--1,这个指标是曲线下面积

AUC值越高,说明模型区分正负样本的能力越强。例如,在本例中,如果我们要比较各个系统的性能,可以计算它们各自的AUC值,并选择具有最高AUC值的那个系统作为最佳系统。

EER:同样,这个指标也从ROC曲线中提取而出,在生物特征识别或模式识别等领域,EER是指误接受率(False Acceptance Rate, FAR)与误拒绝率(False Rejection Rate, FRR)相等时的阈值点。

EER是在特定识别系统中,将误接受率和误拒绝率设置为相同水平所需的阈值。较低的EER意味着更好的系统性能,因为这意味着系统同时降低了误接受和误拒绝的概率。

多类情况

之前讲的支持向量机都是用于二分类任务,而有时候会遇到多分类的情况,支持向量机算法也支持多分类的任务。

1、1类对K-1类

共有K类,构造K个支持向量机模型

(1)类别1 VS 类别2、3、4......

(2)类别2 VS 类别1、3、4......

......

......

(K)类别K VS 类别1、2、3......K-1

将单独的类别标签设为1,其余的标签设为-1,从预测样本中找出与其他类别的间隔最大的模型。将其设为预测标签。

2、1类对另一类

设总共有K类,构造K*(K-1)/2个支持向量机模型,并计算出每个模型预测出的类别的分数进行分类。

 

  • 15
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值