概率抽样是根据一个已知的概率来抽取样本单位(也称为随机抽样),概率抽样要求按照一定的概率随机抽取样本,也就是说每个样本都有一定的机会被抽中,同时每个样本被抽中的概率是可以已知或计算出来的,而当运用概率抽样的样本进行参数估计的时候必须考虑样本被抽中的概率(某种程度来说感觉类似贝叶斯,先验概率和后验概率的问题)。
简单随机抽样——从总体N个单位里抽出n个单位作为样本(可以重复抽样,也可以不重复抽样),最常用的抽样方式,参数估计和假设检验主要依据的就是简单随机样本。
系统抽样——将总体中的所有单位(抽样单位)按一定顺序排列, 在规定的范围内随机地抽取一个单位作为初始单位, 然后按事先规定好的规则确定其他样本单位(先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k, r+2k…等单位)。
分层抽样——将总体单位按某种特征或某种规则划分为不同的层(Strata), 然后从不同的层中独立、 随机地抽取样本。
整群抽样——将总体中若干个单位合并为组(群), 抽样时直接抽取群, 然后对中选群中的所有单位全部实施调查。
多阶段抽样——先抽取群, 但并不是调查群内的所有单位, 而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查(群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广, 使抽样的段数增多, 就称为多阶段抽样)
hive实现例子:
https://www.jianshu.com/p/2b73e7c53355
https://blog.csdn.net/m0_38034312/article/details/81434844