模型评估方法

最新推荐文章于 2022-03-22 14:55:12 发布

shuiyuejihua

最新推荐文章于 2022-03-22 14:55:12 发布

阅读量511

点赞数

分类专栏：机器学习人工智能机器学习note 文章标签：数据评估方法模型机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shuiyuejihua/article/details/78960437

版权

机器学习note 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

机器学习人工智能

8 篇文章 0 订阅

订阅专栏

1.留出法 hold-out

一定比例划分出训练集、测试集

保证数据分布的一致性，否则划分后数据分布差异产生偏差；
每次数据划分的地方不同，结果就不同。单次使用留出法，结果不可靠
一般训练集在2/3到4/5之间

2.交叉验证 cross validation

随机不同的划分
特例 : 留一法 leave-one-out ，K-1个训练集、余下的作为测试集

结果比较准确；
计算复杂度高

3.自助法 bootstrapping

自主采样：out-of-bagestimate，目前随机森林、Gradient Boosting、extra-trees等中采用
从m个样本组成的数据集D中，每次随机抽取一个样本放入数据集 ${D}'$ ，重复放入m个。放入m次，都没有被抽取出来放入 ${D}'$ 中，概率为 $\left (1-\frac{1}{m} \right )^{m}$ ，求极限为：

lim m \to \infty (1 - 1 m) m \to 1 e \approx 0.368

$\lim_{m\rightarrow \infty }\left (1-\frac{1}{m} \right )^{m}\rightarrow \frac{1}{e}\approx 0.368$
也就是说会有36.8%的数据抽不出来。用D数据集作为训练集，用剩下的36.8%数据集作为测试集

在数据集小，难划分训练、测试集上很有效
改变初始数据集分布，带来估计偏差

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。