机器学习模型评估方法与选择

最新推荐文章于 2022-12-10 17:21:07 发布

Y_hero

最新推荐文章于 2022-12-10 17:21:07 发布

阅读量328

点赞数

分类专栏：机器学习文章标签：机器学习评估方法

机器学习专栏收录该内容

24 篇文章 6 订阅

订阅专栏

1. 评估方法

通常我们通过一个“测试集”来测试学习器对新样本的判别能力，然后用测试集上的“测试误差”作为泛化误差的近似，依此来评估学习器并作出选择。下面介绍几种常见的作法

1.1 留出法

“留出法”(hold-out)直接将数据集D划分为两个互斥的集合，一个为训练集，另一个作为测试集。常见做法是将大约2/3~4/5的样本用于训练，剩余样本用于测试。

1.2 交叉验证法

“交叉验证”(cross validation)先将数据集D划分为k个大小相似的互斥子集，每个自己都尽可能保持数据分布的一致性，即从D中通过分层采样得到，然后每次选用k-1个子集作为训练集，剩余的那个子集作为测试集；这样就可以得到k组训练/测试集，从而进行k轮的训练和测试，最终返回值是这k个测试结果的均值。交叉验证法评估结果的稳定性和保真性在很大程度撒谎功能取决于k的取值，因此交叉验证法又称“k折交叉验证”，k的常用取值是10，5，20。

1.3 自助法

上述两种评估方法都是在原本的训练集D上进行划分测试集，减小了输入数据的规模，对模型造成了一定程度的影响，有没有什么办法可以减少训练样本规模不用造成的影响，同时还能比较高效地进行实验估计呢？

“自助法”是一个比较好的解决方案，它以自助采样法为基础，给定包含m个样本的数据集D，每次采取随机抽取并放回的策略随机抽取m次，就形成了含有m个样本的数据集d(随机森林中构建决策树时也是采用类似的方式)，这过程中会有一部分样本不会被抽取，其概率为：

不被采取的概率
因此，我们可以用这约0.368的未出现在采样数据集d中的数据作为d相应的测试集。

自助法在数据集较小，难以有效划分训练/测试集时很有用；但是自助法改变了初始数据集的分布，这会引入估计偏差。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习模型评估方法与选择

1. 评估方法通常我们通过一个“测试集”来测试学习器对新样本的判别能力，然后用测试集上的“测试误差”作为泛化误差的近似，依此来评估学习器并作出选择。下面介绍几种常见的作法1.1 留出法 “留出法”(hold-out)直接将数据集D划分为两个互斥的集合，一个为训练集，另一个作为测试集。常见做法是将大约2/3~4/5的样本用于训练，剩余样本用于测试。1.2 交叉验证法 “交叉验证”(cro...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。