数据集划分

最新推荐文章于 2023-03-05 00:44:49 发布

来路与归途

最新推荐文章于 2023-03-05 00:44:49 发布

阅读量2.6k

点赞数

分类专栏：数据集文章标签：数据集划分

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42233538/article/details/107127301

版权

数据集专栏收录该内容

2 篇文章 0 订阅

订阅专栏

留出法：直接将数据集D划分为两个互斥的部分，其中一部分作为训练集S，另一部分用作测试集T。

通常训练集和测试集的比例为70%：30%。同时，训练集测试集的划分有两个注意事项：

1. 尽可能保持数据分布的一致性。避免因数据划分过程引入的额外偏差而对最终结果产生影响。在分类任务中，保留类别比例的采样方法称为“分层采样”（stratified sampling）。

2. 采用若干次随机划分避免单次使用留出法的不稳定性。

交叉验证法：先将数据集D划分为k个大小相似的互斥子集，每次采用k−1个子集的并集作为训练集，剩下的那个子集作为

测试集。进行k次训练和测试，最终返回k个测试结果的均值。又称为“k折交叉验证”（k-fold cross validation）。

为减少因样本划分带来的偏差，通常重复p次不同的划分，最终结果是p次k折交叉验证结果的均值。

留一法：是k折交叉验证k=m（m为样本数）时候的特殊情况。即每次只用一个样本作测试集。该方法计算开销较大。

自助法：以自助采样为基础（有放回采样）。每次随机从D中挑选一个样本，放入D′中，然后将样本放回D中，重复m次之后，

得到了包含m个样本的数据集。

优点：自助法在数据集较小、难以有效划分训练/测试集时很有用。

缺点：然而自助法改变了初始数据集的分布，这回引入估计偏差。

来路与归途

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

来路与归途 CSDN认证博客专家 CSDN认证企业博客

码龄6年

249: 原创

5万+: 周排名

6993: 总排名

37万+: 访问

: 等级

4811: 积分

113: 粉丝

223: 获赞

74: 评论

1253: 收藏

私信

关注

热门文章

分类专栏

工程实践 12篇
算法导论 28篇
面试 45篇
pytorch 3篇
Transformers 1篇
k-means
Canopy
搜索引擎 2篇
数据库 4篇
论文笔记 15篇
数据集 2篇
Tkinter 2篇
强化学习 1篇
GAN 2篇
CV2 1篇
随机数 3篇
python 62篇
tensorflow 31篇
机器学习 11篇
爬虫 1篇
算法思想 13篇
文件读取 3篇
numpy 1篇
3D点云 3篇
软件安装 3篇
Faster R-CNN 5篇

最新评论

tkinter窗口切换
m0_57781693: import tkinter as tk
tkinter窗口切换
m0_57781693: from tkinter import ttk
公交车-最短路径
CSDN-Ada助手: 如何使用模拟退火算法对复杂问题进行求解？
n个花园最少多少天完成种花
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
torch报错
小珑gg22mm: 不是叫你测试，是叫你怎么解决

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。