2.2

最新推荐文章于 2024-02-02 22:34:38 发布

Clark_Kent125

最新推荐文章于 2024-02-02 22:34:38 发布

阅读量190

点赞数

分类专栏：学习笔记-《机器学习，周志华》

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Clark_Kent125/article/details/79467968

版权

学习笔记-《机器学习，周志华》专栏收录该内容

6 篇文章 0 订阅

订阅专栏

2.2 评估方法

泛化误差：通过测试误差(testing error)近似

(测试样本尽量不要出现在测试集中)

如何从数据集中产生训练集和测试集？

1.留出法

将数据集分成两个互斥的集合

*划分要尽可能保持数据分布的一致性，若从采样的角度看待数据的划分过程，则保留类别比例的采样方式通常称为分层采样。

例如：数据集一半好一半坏，则测试集也一半好一半坏

*单次使用留出法得到的估计结果往往不够稳定可靠，一般采用若干次随机划分，重复进行实验评估后取平均值作为留出法的评估结果。

*测试集太大，训练集与真实模型可能产生较大差别；测试集太小，评估结果不准确。一般2/3~4/5用于训练。

2.交叉验证法

将数据集通过分层采样的方式均分成k个互斥子集，其中k-1个作为训练集，剩下一个作为测试集，从而可以进行k次测试。

*稳定性和保真性很大程度取决于k,k通常取10

*划分k个子集的方式有所不同，通常使用随机划分的方式

*10次10折交叉验证

*留一法：样本==划分

3.自助法

对数据集D包含m个样本，用有放回的采样m次生成数，集D’，其中一个样本有(1-1/m)^m概率不背抽中，则D约有1/e的样本不在D’

*数据集较小，难以划分时很有用

*改变了初始数据集的分布，引入了估计误差

调参与最终模型：评估测试完成后，参数和模型已经确定，应用所有的数据集重新训练。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.2

2.2 评估方法泛化误差：通过测试误差(testing error)近似(测试样本尽量不要出现在测试集中)如何从数据集中产生训练集和测试集？1.留出法将数据集分成两个互斥的集合*划分要尽可能保持数据分布的一致性，若从采样的角度看待数据的划分过程，则保留类别比例的采样方式通常称为分层采样。例如：数据集一半好一半坏，则测试集也一半好一半坏*单次使用留出法得到的估计结果往往不够稳定可靠，一般采用若干次随...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。