hadoop 抽样

蓄水库抽样(reservoid sampling)怎样随机从N个元素中选择一个元素,你依次遍历每个元素,但不知道N多大。将N个元素用[1、2、...、N]编号。如果在知道N的大小,我们可以从[1、N]中随机选择一个数作为选择对象。但是现在不知道N的大小,要使每一个元素被取的概率相等(随机)。这个概念叫蓄水池抽样。Solution:以1/i的概率取第i个元素。证明:数
摘要由CSDN通过智能技术生成



I、概率抽样

    概率抽样的原则:(随机性原则)

总体中的每一个样本被选中的概率相等。概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好的按总体内在结构中所蕴含的各种随机事件的概率来构成样本,使样本成为总体的缩影。

1.简单随机抽样:

按照等概率的原则,直接从含有N个元素的总体中抽取n个元素组成的样本(N>n

2.系统抽样(等距抽样或机械抽样):

把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。

K(抽样距离)=N(总体规模)/n(样本规模)

前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。(举例)

3.分层抽样(类型抽样

先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。

两种方法:1、先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值