模型评估与选择

林木木子

已于 2022-06-09 10:18:18 修改

阅读量136

点赞数

文章标签：机器学习

于 2022-06-07 22:49:23 首次发布

本文链接：https://blog.csdn.net/qq_46047782/article/details/125168756

版权

评估方法

数据足够时，用留出法和交叉验证
数据量少时，用自助法

都是针对全部样本而言。

注意区分精度和精确率！

错误率：分类错误的样本占样本总数的比例
精度（准确率）：分类正确的样本占样本总数的比例

关系：和为1

混淆矩阵

注：无论TF还是PN都是根据预测结果而言的。预测为正负有PN，预测对错有TF。

查准率（精确率）：预测为正例的里面有多少是真的正例。精确率是针对预测结果而言的。
$P=\frac{TP}{TP+FP}$
查全率（召回率）：真实为正的里面有多少是预测对了。召回率是针对原来的样本而言的。
$R=\frac{TP}{TP+FN}$

关系：分母不同，一个是真实为正，一个是预测为正。
负相关。因为如果需要准确率高，就只挑正的可能性大的样本，注定挑出的正样本数不会很多。如果要召回率高，就尽量挑出所有样本，这样就会包括了所有正样本

根据上述关系，可以得"P-R"曲线

平衡点：与 $y = x$ 的交点。

$f_1 =\frac{2 \times P \times R}{P + R}$
是调和平均

补充：关于多元的weightRecall、weightPrecision，f1
都乘以每一类的权重，即把某类当成正类时，乘以该类权重。

$P=\frac{TP}{TP+FP} \times \frac{TP+FN}{TP+FP+TN+FP} +\frac{TN}{TN+FN} \times \frac{FP+TN}{TP+FP+TN+FP}$

$R=\frac{TP}{TP+FN} \times \frac{TP+FN}{TP+FP+TN+FP} +\frac{TN}{TN+FP} \times \frac{FP+TN}{TP+FP+TN+FP}$

$f_1=f^{11}_1 \times \frac{TP+FN}{TP+FP+TN+FP} +f^{00}_1 \times \frac{FP+TN}{TP+FP+TN+FP}$

真正例率：真正例中预测正例的比例
$TPR=\frac{TP}{TP+FN}$
假正例率：真反例中预测正例的比例
$FPR=\frac{FP}{TN+FP}$

总结对比：
1.P-R曲线和ROC曲线的坐标轴都有一项是真正占实正的比例，另一项一个是真正/预正，一个是假正/实负。
2.P-R负相关，ROC正相关

有限样本计算横纵坐标只能得到折线

FP.TN的代价取不同

通过假设检验（二项检验、t检验）、交叉验证t检验、McNemar检验、Friedman检验、Nemenyi检验等来比较学习器性能

偏差-方差窘境

关注