1.回归模型
度量方法:
- 均方误差 mean_squared_error
- R2分数 r2_score
- 可释方差分数 explained_variance_score
2.分类模型
度量方法:
- 错误率、精度accuracy。分类错误或正确的样本数占样本总数的比例
在查准率、查全率、f分数之前,先看看混淆矩阵,容易晕人
这个混淆矩阵:样本实际情况(True、False)、预测结果(Positive、Negative),预测为阳性、阴性,比如:指的是预测结果以男为主,那么预测出男表示阳性,预测为女表示阴性。又比如,找垃圾邮件,预测出为垃圾邮件就为阳性。预测的主题是什么,预测它就是阳性的。
- 简单来说:
查全率(recall),真实值为True那列或行,然后预测为真/此列(行)总数;
查准率(precision),预测为真True的那列或行,预测为真的数/此列(行)总数 - 第一种混淆矩阵
真实情况 \ 预测情况 | 检索出来的(预测为正例)1 | 没被检索出来(预测为负例)0 |
---|---|---|
本来label标记为1 | TP(预测对了,是正例) 11 | FN(预测错了,是正例) 01 |
本来label标记为0 | FP(预测为正例+错了) 10 | TN(预测为负例+对了,实际为0) 00 |
- 第二种混淆矩阵
检索情况 \ 实际情况 实际label为1 实际label为0 检索出来的(预测为正例) 1 TP(预测为1,实际为1)11 FP(预测为1,实际为0)10 没检索出来(预测为负例) 0 FN(预测为0,实际为1)01 TN(预测为0,实际为0)00
查准率,分类中真正的正例占分类出正例总数(包含分错了的)的比例。这个正例,指的是label里面标记为1的。而真的正例,是指这个样本实际就是真的,预测分类得到的也是label为1的。正确的把label为1的样本分类出来
查准率
precision=TPTP+FP p r e c i s i o n = T P T P + F P意思就是, 预测出为阳性的样本中,正确的有多少。区别准确率(正确预测出的样本,包括正确预测为阳性、阴性,占总样本比例)查全率,分类中真正的正例占所有正例的比例。所有正例是指样本中本来存在多少个label为1的。预测为1的数占样本中label为1的数的比例
查全率
recall=TPTP+FN r e c a l l = T P T P + F N意思是, 正确预测为阳性的数量占总样本中阳性数量的比例P-R曲线,查准率为纵轴,查全率为横轴,作图。如果一个学习器模型的P-R曲线将另外一个完全包住,那么这个学习器比被包住的好
- BEP平衡点,查全率=查准率,然后比较学习器直接的bep平衡点的值,可以简单比较学习器直接的优劣性,但一般用F1分数,以及一般化的
F-beta分数。 - 多个二分类混淆矩阵,宏查准率macro-p、宏查全率macro-r;微查准率micro-p,微查全率micro-r
- Roc、Auc。设定一个值,大于这个值,就分为正例,我们想要的,标记为label为1的。这个时候就用roc曲线。横轴真正例率,纵轴假正例率,
- 偏差、方差