统计概率思维——无偏差抽样及总体和样本的估计
一、进行无偏差抽样
1.如何进行抽样设计:
注意:抽样空间是样本的基础,但不是样本本身,它列出了总体中的所有独立单位,因为我们不会去抽取抽样空间中的所有对象。
2.如何进行无偏差抽样?
①引起样本会发生偏差的原因?
偏倚来源之广,其中大部分归咎于样本的选取方法。我们需要检查样本的选取方法,使偏倚的发生几率降至最低程度。
②无偏差样本与偏倚样本
③样本的选择
二、抽样预测(总体和样本的估计)
1.什么是点估量?
一个总体参数的点估量就是可以用于估计总体参数数值的某个函数或算式。
2.样本均值与总体均值的关系
样本均值被称为总体均值的点估量,作为一个基于样本数据的计算结果,它给出了总体均值的良好估计。
样本均值的算法(样本大小为n):
3.样本方差与总体方差
方差:度量的是一个数据集中数值与均值的偏离程度。
样本方差较之于总体方差,样本方差的估计结果会偏低,差别程度取决于样本数值的大小。样本较小时,样本方差与总体方差的差别有可能就更大。
总体方差(总体大小为n):
总体方差的点估计量:
n-1: 其中n是样本的大小,而这里用的是n-1而不是n,原因在于总体方差往往大于样本数据的方差,而除以n-1的结果会大于除以n的结果,特别是在n相当小的时候。用这样的公式得出的结果与样本数据的方差近似,但又略偏大,它作为总体方差的点估量,相对于处于n时,效果会更好一些。
4.预测总体比例
如果用X表示总体的成功事件数量,则X符合二项分布,参数为n和p。
n:总体事件数
p:成功事件的比例
总体成功比例的最接近猜测肯定是样本成功比例,因此需要求出样本的成功比例。
样本成功比例公式:
X:随机变量X表示样本中的成功数
n:表示样本中的元素个数
5.样本比例的概率
含义:计算在一个整体中出现一种特定比例的概率
①首先需知道的概念:
抽样分布:
首先从一个总体中用相同的方法抽取许多大小相同,但存在差异的样本;
然后用每个样本的某个属性形成一个分布,其结果为抽样分布。
例如:“比例抽样分布”——取所有大小为n的可能样本的比例,形成的分布。
样本成功比例Ps的期望:
样本成功比例Ps的方差:
样本成功比例Ps的标准差:
n: 样本大小为n
p:成功事件的概率
q:失败事件的概率
表示所期望的样本比例与总体比例真值P的可能差距,也被称为“比例标准误差”。
②Ps符合正态分布:
当n>30时,Ps分布符合正态分布
Ps的正态分布的表达式为:
③Ps需要进行连续性修正
因为Ps=X/n(X为样本成功数)
所以X的正态连续性修正为±(1/2)
因此连续性修正的表达式为:
6.样本均值的概率
“均值的抽样分布”——从所有可能样本得出的所有样本均值形成一个分布。
先看总体X的分布,X的均值为μ,方差为σ²,所以E(X)=μ,Var(X)=σ²;接着用来自总体的X的所有大小为n的可能样本,形成样本均值分布。
①需知的概念:
样本均值的期望:
样本均值的方差:
样本均值的方差指的是样本均值的变异情况。
样本均值的标准差:
可指出样本的均值与总体均值μ的可能偏离距离,因此也被称为均值标准误差。
②样本均值分布:
当总体X的分布为正态分布时:
由此可见,样本均值的分布都符合正态分布。
当总体X的分布可能不符合正态分布时,样本均值是如何分布的呢?这时需要用到中心极限定理。
7.中心极限定理:
①如果一个非正态总体X中取出一个样本,且样本很大(n>30),则样本均值的分布近似为正态分布。样本均值约等于总体均值;无论总体是什么分布,任意一个总体的样本平均值都会围绕在总体平均值周围,并且呈正态分布。
如果总体均值为μ,方差为σ²,且n大于30,则:
②中心极限定理的作用:
(1)在没有办法得到总体全部数据的情况下,可以用样本估计总体。
(2)根据总体平均值和标准差可以判断某个样本是否属于总体。
三、避免生活、投资中的偏见
四、python中的总体与样本
1.随机数random模块的使用
用random模块的randint()函数来生成随机数。
语法为:random.randint(a,b), 函数返回数字N,N为a到b之间的数字(a<=N<=b),包含a和b。
2. 随机抽样
案例:抽奖
目的:从395个用户中随机抽取10个作为中奖者
①生成多个随机数,用random.randint()函数
②随机抽样时需要用range()函数来创建一个列表,此函数一般用在for循环中。
使用语法:range(start, stop [,step])
参数说明:
start:计数从start开始,默认是从0开始,例如:range(5)等价于range(0,5)
stop:此处的参数不含在内,如range(0,5)的列表中只有[0,1,2,3,4]
step:步长默认为1,例如:range(0,5)等价于range(0,5,1)
3.pandas数据框的抽样方法
Step1.首先导入数据包numpy和pandas
Step2.用arang产生一个5*4个元素的一维数组;
reshape 将数组转化成5行4列的二维数组
Step3.在生成的数组里抽取样本,用sample函数,选取一个n行的子集