机器学习0：模型评估标准Model Evaluation

最新推荐文章于 2024-08-02 17:53:15 发布

绝对是谨慎提交的昵称

最新推荐文章于 2024-08-02 17:53:15 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习·所思所得文章标签：机器学习数据分析数据建模数据挖掘

本文链接：https://blog.csdn.net/sunsimiaofromsh/article/details/108446968

版权

本文介绍了模型评估的三种方法：留出法、交叉验证法和自助法，并详细讲解了自助法及其0.632 Bootstrap原理。接着，讨论了回归问题的评估指标如MSE和RMSE，以及分类问题的评估指标，包括错判概率、Cohen’s kappa和混淆矩阵等。文章还提及了预测概率问题的评估指标和各种模型评估时的注意事项。

摘要由CSDN通过智能技术生成

模型评估标准

模型评估方法

留出法 Hold-out

详见各大资料～好像网上信息还是蛮多的！

交叉验证法 Cross-validation

详见各大资料～好像网上信息还是蛮多的！

自助法 Bootstrapping（0.632 Bootstrap）

根据西瓜书¹里的一段话，“我们希望评估的是用 D（数据集）训练出的模型，但在留出法和交叉验证法中，由于保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比 D 小，这必然会引入一些因训练样本规模不同而导致的估计偏差，留一法受训练样本规模变化的影响较小，但计算复杂度又太高了”，因此提出了自助法。

给定包含 n 个样本的数据集 $D$ ，有放回地从数据集抽取 1 个样本，如此进行 n 次抽取，得到一个包含 n 个样本的新数据集 $D^{'}$ ，这就是自助采样的成果。这样的有放回抽取方式，会导致原数据集中有一部分样本会在新数据集中多次出现，但有一部分样本不会在新数据集中出现。样本在 n 次采样中始终没被抽取到的概率是 $(1-\frac{1}{n})^n$ ，将此概率取极限得到：
$\lim\limits_{n \rightarrow \infty} (1-\frac{1}{n})^n = \frac{1}{e} \approx 0.368$
即通过自助法采样，D 中一个样本 n 次都没被抽到的概率约为 $36.8\%$ ，这意味着 D 中约有 $36.8\%$ 的样本没有出现在新数据集中，于是我们可以将采样得到的 $D^{'}$ 作为训练集，将 $D$ \ $D^{'}$ 作为测试集——这样的话，实际评估的模型与期望评估的模型都是用 n 个样本用来训练，而我们仍有数据总量约 $\frac{1}{3}$ 的、没在训练集中出现的样本用于测试，这样的测试结果，也称为“包外估计”（out-of-bag estimate）。

优点：自助法在数据集较小、难以有效划分训练/测试集时很有用，此外，自助法能从初始数据集中产生多个不同的训练集（重复这种采样及训练集设定的方法），这对集成学习有很大好处。
缺点：自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差，因此，在原数据集数据量足够的情况下，留出法和交叉验证法更常用一些。

哦，对了，为什么叫 0.632 Bootstrap 呢？原数据集 $D$ 中的某一个样本在 n 次中至少被抽到一次的概率是 $1 - 0.368 = 0.632$ 。

在模型评估的时候，我们做 $k$ 次自助采样，假设第 $i$ 次采样的 Test Sample Error Estimate （训练集数据建模后，用测试集来计算的错判概率）为 $e^{(i)}_{test\_set}$ ，由于只用了原数据集中大约 $63\%$ 的数据构造训练集，因此这个测试集错判率比较 pessimistic/upward（消极，大约就是错判率偏高，认为模型过于的“不好”）。为了解决这个问题，我们所要用的错判率就要和 Resubstitution Error Estimate（训练集数据建模后，用训练集本身来计算的错判概率）进行“组合”：
$e^{(i)} = 0.632 \ e^{(i)}_{test\_set} + 0.368 \ e^{(i)}_{train\_set}$
这个 Resubstitution Error 是比较 optimistic （错判率偏低）。我们把 k 次自助法得到模型的“组合”错判率进行算数平均，得到最终的错判率为：
$\frac{\sum_{i=1}^k e^{(i)}}{k}$