机器学习(周志华)学习笔记 - 数据集的划分方法

本文介绍了机器学习中数据集的划分方法,包括留出法、交叉验证法和自助法。留出法直接将数据集分为训练集和测试集,交叉验证法将数据集划分为多个互斥子集进行多次训练和测试,而自助法通过重复抽样创建新的训练集,但可能导致数据分布偏差。通常,数据量足够时,留出法和交叉验证法更为适用。
摘要由CSDN通过智能技术生成

数据集D划分成训练集S和测试集T的方法

1) 留出法 (hold - out)   直接将数据集D划分成两个互斥的集合,其中一个集合作为训练集S, 另一个集合作为训练集T

 D=S\bigcup T     S\bigcap T= \phi  

  在进行训练集和测试集的划分时,尽可能保持数据划分的一致性,避免因数据划分过程中额外的偏差而对最终的结果产生影响

① 保持样本的类别比例相似  D中1000个样本 500个正例子, 500个反例  

② 70%作为训练集 则挑 S 350正  350反     T  150正  150反

留出法的结果并不够可靠,使用留出法时,要采用若干次的随机划分,   求结果的平均

留出法的窘境: 令S包含大多数样本,训练出的模型更接近于用数据集D训练的模型, 但T少使得评估不稳定

                          令T包含大多数样本,被评估的模型与用D训练出来的模型有较大的差别。

常见的做法是 将大约 2/3-2/5 的样本用于训练

2) 交叉验证法

      将数据集D划分成为k个大小相似的互斥子集, 即D=D1\cup D2\cup D3\cup D4\cup .....\cup Dk       Di\cap Dj = \phi(i != j)

每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集, 这样就得到了 k组测试集和训练集

注: 交叉验证的稳定性和保真性很大程度上取决于k的取值   当k为m时候 -》留1法, 留1法的评估结果比较准确,但是当数据量过大的时候,留1法的计算开销是难以忍受的。

3)自助法

  给定包含m个样本的数据集D,我们对他采样生成数据集D‘。每次从数据集D中采样,挑选出一个样本将其放入D’ 重复m次

自助法能从初始数据集中产生多个不同的训练集,这对集成学习的方法有很大的好处, 然而自助法产生的数据集改变了初始数据集的分布,这回引入估计偏差。

在初始数据量足够时,留出法和交叉验证法更常用一些

   

      

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值