本文总结了数据分析中用到的推断统计分析知识点,是自己学习参数估计和假设检验的学习笔记。
目录
推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中,获取总体数据通常比较困难,甚至不可能完成,因此需要对总体进行抽样,通过样本统计量去估计总体参数。
一、参数估计
1. 点估计
就是用样本的统计量去代替总体参数。
优点: 可以给出具体的估计值;
缺点: 估计结果容易受到随机抽样的影响,无法保证结论的准确性。
2. 区间估计
根据样本统计量计算出一个可能的区间与概率。
优点: 可给出合理的范围(置信区间)及信心指数(置信度);
缺点: 不能给出具体的估计值。
2.1 中心极限定理
如果总体(分布不重要)均值为 μ方差为 σ 2 σ^2 σ2,进行足够多次随机抽样,样本容量为n,当n增大时,样本均值近似服从正太分布X~N(μ, σ 2 σ^2 σ2/n)。
结论:
1、多次抽样,每次抽样会得到一个均值,均值会围绕在总体均值左右,呈正太分布。
2、当样本容量n足够大(一般n>=30),样本均值服从正太分布。
1)样本均值构成的正态分布,其均值等于总体均值μ;
2)样本均值构成的正态分布,其标准差等于σ/ n \sqrt n n