模型评估时常用的验证方法有哪些？

十三吖

于 2021-11-25 21:54:18 发布

阅读量4.2k

点赞数 1

分类专栏：机器学习相关算法工程师面试推荐算法与Tensorflow 文章标签：机器学习人工智能数据挖掘深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40006058/article/details/121548565

版权

推荐算法与Tensorflow 同时被 3 个专栏收录

104 篇文章

订阅专栏

机器学习相关

91 篇文章

订阅专栏

算法工程师面试

41 篇文章

订阅专栏

hold out 检验
- 将原始的样本集合按比例划分成训练集和验证集，例如7:3， 8:2等，
- 缺点：验证集上的评估指标与数据划分有很大的关系，因此为了消除随机性，常采用下面的交叉检验
交叉检验
- k fold交叉验证：将数据集随机划分成k个大小相同的子集，依次偏离这k个子集，每次把当前子集作为验证集，其余作为训练集，最后将k次指标进行平均作为最终结果
- 留1验证：每次留下一个样本作为验证集，其余用于训练，遍历n次，将n次评估结果的均值作为最终评估指标。当样本总数太大的话，需要遍历次数很多，时间开销大。
自助法
- 上面两种方法都是基于划分训练集和测试集进行模型训练和评估的。但是当样本集较小时，将样本集进行划分会进一步导致训练集进一步减小，影响模型的效果，
- 自助法是基于自主采样的方法。对于总数为n的样本集，进行n次有放回的随机采样，从而得到大小为n的训练集。n次采样过程中有的样本会重复进行采样，有的样本未被采样，将这些未被采样过的样本作为测试集用于模型验证。

🤔 自助法中，对n个样本进行n次采样，当n趋于无穷大时，最终有多少数据未被选择过？

一个样本在一次抽样中被采样到的概率为 $\frac{1}{n}$ ，未被采样到的概率为 $1-\frac{1}{n}$ ，n次抽样均未被抽到的概率为 $(1-\frac{1}{n})^n$ ，当n趋于无穷大时，概率为 $\lim\limits_{n\rightarrow\infty} (1-\frac{1}{n})^n$

我们知道 $\lim\limits_{n\rightarrow\infty} (1+\frac{1}{n})^n = e$

$\lim\limits_{n\rightarrow\infty} (1-\frac{1}{n})^n = \lim\limits_{n\rightarrow\infty} \frac{1}{(1+\frac{1}{n-1})^n} = \lim\limits_{n\rightarrow\infty} \frac{1}{(1+\frac{1}{n-1})^{n-1}} · \lim\limits_{n\rightarrow\infty} \frac{1}{(1+\frac{1}{n-1})} = \frac{1}{e}$

当n很大时，大约有1/e的样本未被采样过，也就是36.8%的样本可以作为验证集。

欢迎关注微信公众号（算法工程师面试那些事儿)，本公众号聚焦于算法工程师面试，期待和大家一起刷leecode，刷机器学习、深度学习面试题等，共勉～

算法工程师面试那些事儿

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。