误差计算
-
线性回归
一般采用均方差(即标准差,方差的算术平方根)计算误差:
(更多方差知识见文末链接)
-
逻辑回归(分类中)
一般采用交叉熵:
特别的,二分类:
(原理见文末链接)
偏差与方差
期望:
方差:
噪声:
二分类误差评估
- TP:True Positive (预测对为正例,说明实际为正例)
- FP:False Positive(预测错为正例,说明实际为反例)
- TN:True Negtive(预测对为反例,说明实际为反例)
- FN:False Negtive (预测错为反例,说明实际为正例)
分类结果的混淆矩阵
以上四个定义是基础,Positive表示对样本作出的是正的判断,T表示判断正确,F表示判断错误(Negtive类似)。
-
精度Accaracy:预测正确的样本数 / 样本总数 :
-
查准率/准确率Precision:预测为正例的样本中真的是正例的比例:
-
查全率/召回率Recall:真实为正例的样本中正例所占比例:
-
查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
P-R曲线
即准确率-召回率曲线
F1 = 2*P*R /(P+ R)
F1,是一个综合指标,是Precision和Recall的调和平均数,因为在一般情况下,Precision和Recall是两个互补关系的指标,鱼和熊掌不可兼得,顾通过F测度来综合进行评估。F1越大,分类器效果越好。
ROC曲线与AUC
ROC曲线:假正例率-真正例率。所围成面积为AUC。如果某个学习器的ROC曲线能完全包住另一个学习器,则该学习器性能更优。
聚类性能度量
聚类后,我们希望同一簇样本相似度高,不同簇间尽可能不同。
距离计算
(1)有序属性
(2)有序属性
距离度量
两种聚类性能度量指标
- 外部指标:将聚类结果与某个“参考模型”比较。如Jaccard系数、FM指数、Rand指数
- 内部指标:直接考察聚类结果。
外部指标
设数据集为,自己的聚类簇划分为 , 参考模型的簇划分为
定义 、分别为自己模型和参考模型对数据的划分类别,则将样本两两配对,定义:
Jaccard系数
,JC系数值范围在[0,1];JC系数越大,聚类效果越好。
FM指数
,FM指数值范围在[0,1];FM指数越大,聚类效果越好。
Rand指数
,Rand指数值范围在[0,1];Rand指数越大,聚类效果越好。
内部指标
DBI指数
,DBI指数越小,聚类效果越好
DUNN指数
, DI指数越大,聚类效果越好
参考: