数据挖掘中的抽样方法--简单记录

有很多种抽样方法,这里只介绍少数最基本的抽样技术和它们的变形。

简单随机抽样:选定任何项的概率相等。

两种变形:(1)有放回抽样;(2)无放回抽样

在有放回抽样中,相同的对象可能会被多次抽中。

当样本与数据集相比相对较少的时候,两种方法 产生的样本差别不大。

分层抽样:总体由不同对象组成,每种类型的对象差别很大。

简单随机抽样不能充分地代表不太频繁出现的对象类型。

分层抽样可以从预先指定的组开始抽样。在最简单的情况下,尽管每组的大小不同,但是从每组抽取的对象个数相同。另一组变形时从每一组抽取的对象数量正比于该组的大小。

渐进抽样

合适的样本容量可能很难确定,因此有时需要使用自适应或渐进抽样的方式。

这些方法从一个小样本开始,然后增加样本容量直至得到足够容量的样本。(还是需要一个评估方法,确定样本是否足够大)

抽样方法的使用要考虑到样本容量的问题

较大的样本容量虽然增加了样本具有代表性的概率,但是也抵消了抽样带来的许多好处。使用较小容量的样本,可能会丢失模式,或者检测出错误的模式。


  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值