分类与聚类的评价标准

1 : 分类算法的评价标准

  p准确率=tp/(tp+fp)     正类预测为正类/正类预测为正类+负类预测为正类

   r召回率=tp/(tp+fn)       正类预测为正类/正类预测为正类+正类预测为负类

   F1=2pr/(p+r)

   准确率:体现了模型对负样本的区分能力,准确率越高,说明模型对负样本的区分能力越强

   召回率:体现了分类模型对正样本的识别能力,召回率越高,说明模型对正样本的识别能力越强

   F1是对模型区分正负样本能力的衡量,f1越高,说明分类模型越稳健

   Roc曲线的横纵 主要用于画ROC曲线(横坐标为FPR,纵坐标为TPR):TPR(灵敏度:实际也是召回率); FPR(负类预测为正例)=fp/fp+tn 负类预测为正类/负类预测为正类+负类预测为负类

2 : 聚类的衡量标准

      均一性:一个簇只包含一个类别的样本则没满足均一性;其实也可以认为就是正确率(每个 聚簇中正确分类的样本数占该聚簇总样本数的比例和)

    

 

   完整性:同类别样本被归到同一个簇中则满足完整性

     

 

  V_measure:均一性和完整性加权平均。当时,V_measure相当于分类算法衡量指标的F1_score.

   

  兰德指数:

    兰德指数(Rand index)需要给定实际类别信息CC,假设KK是聚类结果,aa表示在CC与KK中都是同类别的元素对数,bb表示在CC与KK中都是不同类别的元素对数,则兰德指数为:

  

其中数据集中可以组成的总元素对数,RI取值范围为[0,1][0,1],值越大意味着聚类结果与真实情况越吻合。

对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度:

ARI取值范围为[−1,1][−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。

 

 

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值