整理最近学习的算法:kappa值、ROC曲线和AUC值、SVM支持向量机(简单)
1.分类精度的检验
(1)kappa系数检验一致性和分类效果
下面给出公式:
其中,p0是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度 。
假设每一类的真实样本个数分别为a1,a2,…,aC,而预测出来的每一类的样本个数分别为b1,b2,…,bC
总样本个数为n,则有:
kappa计算结果为-1-1,但通常kappa是落在 0-1 间,可分为五组来表示不同级别的一致性:0.0-0.20极低的一致性(slight)、0.21-0.40一般的一致性(fair)、0.41-0.60 中等的一致性(moderate)、0.61-0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。
这里
p0=(1+5+9)/45=0.333
pe=[(1+4+7)×(1+2+3)+(2+5+8)×(4+5+6)+(3+6+9)×(7+8+9)] / 45^2=0.36
则有
此结果代表分类结果不太好。
(2)ROC曲线和AUC值
ROC曲线:
例如:
下面的表格代表某个二分类事件中分类的情况:<