自学机器学习笔记(六)

度量系统性能的标准

混淆矩阵

 

 

 注:因为负样本更多,所以猜负样本

 TP+FN=1  FP+TN=1

ROC曲线

概率TP,FN,FP,TN的关系

TP+FN=1

FP+TN=1

对同一个系统来说,若TP增加,则FP也增加

注:对同一个系统如果把更多的正样本识别为正样本,则我们一定把更多的负样本识别为负样本

支持向量机的判别公式

 只要我们改一下,,就能获得另一个系统

 

 ROC曲线

 

比如说上图的ROC曲线,系统性能最好的是蓝色,最差的是紫色

根据ROC曲线,我们可以得到:

AUC

 越大性能越好

等错误率 EER

 这条线上FP=FN,EER越低系统性能越好

支持向量机(多类问题)

二分类的支持向量机求解多分类问题

1、1类 对 K-1类

2、1类 对 另一类

1、1类 对 K-1类

        假设总共有K类,我们需要构造K个支持向量机模型

        (1)类别1 VS 类别2,3,4。。。K

        (2)类别2 VS 类别1,3,4。。。K

                        。。。

        (K) 类别K VS 类别1,2,3,。。。K-1

假设:

对于每个优化问题,左边单一类别的标签为+1,右边K-1个类别的标签为-1

对于一个测试样本X,我们判断其类别为

 注:这种一类VSk-1类的策略会导致训练样本不平衡,右边的样本数量会比左边大很多

2、1类 对 另一类

        假设有三类,那么我们就构造三个支持向量机分类器

        (1) 类别1 VS 类别2

        (2) 类别1 VS 类别3

        (3) 类别2 VS 类别3

对于测试样本X 输入到三个支持向量分类器中,最终通过投票的方式获得最后结果

 注:可能出现平票

例如:

如果出现三个类别平票 ,可以更细分

我们可以计算

三个支持向量机对类别1的分数和=0.5-0.2=0.3

三个支持向量机对类别2的分数和=-0.5+0.4=-0.1

三个支持向量机对类别3的分数和=0.2-0.4=-0.2

类别1的分数和最高,所以结果是类别1

注:会带来新的问题,类别数为K时,我们要构建K(K-1)/2个支持向量机

我们可以做出一个树状分类器

兼顾了类别样本数的平衡

注:保证每个分类器区分的两类差别是显著的

可以使用聚类算法、结合决策树算法去实现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值