1 : 分类算法的评价标准
p准确率=tp/(tp+fp) 正类预测为正类/正类预测为正类+负类预测为正类
r召回率=tp/(tp+fn) 正类预测为正类/正类预测为正类+正类预测为负类
F1=2pr/(p+r)
准确率:体现了模型对负样本的区分能力,准确率越高,说明模型对负样本的区分能力越强
召回率:体现了分类模型对正样本的识别能力,召回率越高,说明模型对正样本的识别能力越强
F1是对模型区分正负样本能力的衡量,f1越高,说明分类模型越稳健
Roc曲线的横纵 主要用于画ROC曲线(横坐标为FPR,纵坐标为TPR):TPR(灵敏度:实际也是召回率); FPR(负类预测为正例)=fp/fp+tn 负类预测为正类/负类预测为正类+负类预测为负类
2 : 聚类的衡量标准
均一性:一个簇只包含一个类别的样本则没满足均一性;其实也可以认为就是正确率(每个 聚簇中正确分类的样本数占该聚簇总样本数的比例和)
完整性:同类别样本被归到同一个簇中则满足完整性
V_measure:均一性和完整性加权平均。当时,V_measure相当于分类算法衡量指标的F1_score.
兰德指数:
兰德指数(Rand index)需要给定实际类别信息CC,假设KK是聚类结果,aa表示在CC与KK中都是同类别的元素对数,bb表示在CC与KK中都是不同类别的元素对数,则兰德指数为:
其中数据集中可以组成的总元素对数,RI取值范围为[0,1][0,1],值越大意味着聚类结果与真实情况越吻合。
对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度:
ARI取值范围为[−1,1][−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。