什么是中心极限定理
点估计法:用一个样本统计量来估计总体参数值
样本均值:从总体中抽取一定大小的样本的均值
标准误差:样本均值的标准差等于总体均值的标准差除以样本容量的平方根。
1.在一个总体中无论成什么分布情况,在总体中样本均值都会大约成正态分布的情况,而且样本均值与总体均值相同,标准差为
测试地址:http://onlinestatbook.com/stat_sim/sampling_dist/index.html
将总体改成随机分布可以看到其mean=8.08,median7.00,每次下落5个样本,取平均数进行100次实验
下面再进行100次实验可以看到形状越来越接近正态分布
进行10000次实验结果可以看到越来越接近正态分布
中心极限定理有什么作用呢?
1.当我们无法得知总体情况的时候通过样本来估计总体
样本的平均值等于总体的平均值,可以通过对样本进行调查来预估总体情况,如通过调查10000名中国男性身高来预测全国男性的身高,因为我们可以调查出这10000名男性的标准差和均值可以推出正态分布状况,然后推出总体情况
2.根据总体情况的均值与标准差来判断样本是否属于总体
根据中心极限定理推出样本的正态分布,能够推算出一个样本属于总体的概率大小。
置信区间
置信空间:产生这个样本的总体的参数分布中的某一个未知参数值,以区间形式给出的估计,与点估计不同的是置信区间还蕴含了估计的精确度的信息。
为什么不用点估计而设计置信区间?
因为点估计只代表用样本来估计出的值,而样本并不能代表总体,估计出来的值存在误差的概率很大,所以引入了置信区间它的好处是给出了一个范围,留出了误差空间。如一个人刚找了一份工作这份工作中市场上一般薪水是10万,他说我明年可以挣10万和他是说我明年可以挣5万到15万有什么区别呢?很明显下一种方式更容易实现,给自己留了一条后路。后一种方式就是置信区间。
如何设置置信区间呢?
还记得前面我们的中心极限定理吗0-0,我们得出了一个结论就是样本的均值满足正态分布,记不记得正态分布当中位点的作用呢?68%,95%,99.7%,看到这个数字怎么说,是不是有点小感觉了,如要求95%就成立则只要满足P<0.05就成立了,也就是说只要95%的范围内就是置信区间的范围
我们通过中心极限定理可以推出样本的均值和标准差,而我们需要求的就是其中总体均值的范围,然后根据得到的正态分布找到95%的点
置信空间为=均值±误差范围(对应的值1.96*总体标准差除以样本的开方)