有很多种抽样方法,这里只介绍少数最基本的抽样技术和它们的变形。
简单随机抽样:选定任何项的概率相等。
两种变形:(1)有放回抽样;(2)无放回抽样
在有放回抽样中,相同的对象可能会被多次抽中。
当样本与数据集相比相对较少的时候,两种方法 产生的样本差别不大。
分层抽样:总体由不同对象组成,每种类型的对象差别很大。
简单随机抽样不能充分地代表不太频繁出现的对象类型。
分层抽样可以从预先指定的组开始抽样。在最简单的情况下,尽管每组的大小不同,但是从每组抽取的对象个数相同。另一组变形时从每一组抽取的对象数量正比于该组的大小。
渐进抽样
合适的样本容量可能很难确定,因此有时需要使用自适应或渐进抽样的方式。
这些方法从一个小样本开始,然后增加样本容量直至得到足够容量的样本。(还是需要一个评估方法,确定样本是否足够大)
抽样方法的使用要考虑到样本容量的问题
较大的样本容量虽然增加了样本具有代表性的概率,但是也抵消了抽样带来的许多好处。使用较小容量的样本,可能会丢失模式,或者检测出错误的模式。