统计学核心概念解析-CSDN博客

本文链接：https://blog.csdn.net/qq_35906568/article/details/103396150

统计量及抽样分布

总体就是我们想要研究的整个群体；参数就是描述总体的数值摘要；样本是总体的子集；统计量是描述样本的数值摘要
抽样分布是样本的分布，也可以理解为一个统计量的分布（任何统计量）。所有参数从属于一个总体，所有统计量从属于一个样本
下面是统计中的符号：
统计符号

1. 常用的统计量

样本均值： 样本的均值
样本方差： 现求出总体个数据与其算数平均数之差的平方，再对次变量求平均数，就叫做样本方法。样本方差用来表示一列数的变异程度。
样本变异系数： 又称“离散系数”，是概率分布离散程度的一个归一化度量，其定义为标准差与平均值之比。变异系数主要用于不同单位的数据变异度的比较，或是相同单位的数据但均属差差比较大时变异度的比较。

矩是物体形状识别的重要参数指标。在统计学中，矩表征随机量的分布。
一阶矩，期望，表位置；二阶矩，方差，表胖瘦；三阶矩，偏度，表歪斜；四阶矩，峰度，表尾巴胖瘦。

样本K阶距： k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的期望值。一阶原点矩就是数学期望。
样本K阶中心距： k阶中心矩是随机变量x“偏离”其中心的“距离”的k次方的期望值。一般均以其平均数为“中心”。二阶中心矩，也叫作方差，它告诉我们一个随机变量在它均值附近波动的大小，方差越大，波动性越大。方差也相当于机械运动中以重心为转轴的转动惯量。三阶中心矩告诉我们一个随机密度函数向左或向右偏斜的程度。
样本K阶矩、样本K阶中心矩：
次序统计量： 设 X1,X2, …, Xn是取自总体X的样本，X(i) 称为该样本的第i个次序统计量，它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n)，则称X(1),X(2), …,X(n)为顺序统计量。

　　(1) 最小顺序统计量
　　(2)最大顺序统计量
　　样本X1,X2,…,Xn是独立同分布的，而次序统计量X(1),X(2),…,X(n) 则既不独立，分布也不相同
充分统计量：

2. 抽样分布

在理解抽样分布之前, 首先需要明确区分描述统计与推论统计
描述统计：用来描述收集的数据.例如集中趋势\离散程度\分布状态
推论统计：在于使用我们收集到的数据对更大的总体数据得出结论.
大数法则：表示随着样本容量增加，样本平均数越来越接近总体平均数
中心极限定理：表示样本容量足够大，平均数的抽样分布越接近正态分布

样本均值的抽样分布：z-分布、t-分布
样本方差的抽样分布：卡方分布、F-分布

2.1 z-分布

在介绍差值用于标准化的文章中，我们接触到了 z-分数这一概念。回顾一下 z-分数，z=(x-μ)/σ ，含义是「当前数据点与样本平均值之间差了多少个标准差」。借助 z-分数，同理我们可以构造抽样的 z-分数，用于表示「样本均值和总体均值之间差了多少个标准差」。此时式子中的 x 和 σ 就变成了每次抽样的平均值和标准误（Standard Error），记为
Z函数
已经通过反复的实验证明，当 n 充分大时，抽样的 z-分数会服从标准正态分布，也就是 z-分布。
在这里插入图片描述

2.2 t-分布

t-分布全称是学生 t-分布（Student’s t-distribution），在样本量很小（不足 30）的情况下使用 z-分数产生的误差非常大，便依靠自己的统计知识创造出了 t-分布。产生大误差的原因在于对 μ 和 σ 两个参数的估计。因为 z-分数里的 μ 和 σ 总是已知的，然而在实际中未必清楚这两个数值到底是多少，尤其是 σ 要比 μ 难测量得多。试着想一想，如果总体有 10 个，样本数为 3 的抽样情况就有 C(10, 3)=120 种。计算量太大导致人们更倾向于主观估计。
William 想到用样本方差 s 来表示总体方差，构造出一个「神似」z-分数的新统计量
在这里插入图片描述
中心极限定理告诉我们，当样本量足够大的时候，任何分布形态的均值和方差都可用此时的样本统计量来近似。因此这种做法是合理的。
William 还发现这个统计量服从的是自由度（Degrees of Freedom）为 n-1 的分布，后来被称为 t-分布，其中的n-1 来自样本方差的有偏估计（重温或进一步认识自由度的概念，可翻到文末查看推荐阅读的材料）。这种分布的形状与自由度有关，自由度越小分布曲线越「矮胖」，自由度越大则分布曲线越「高挑」。当自由度为 30 的时候（图中橙色线条），t-分布整体上已经很接近正态分布了。
T分布的定义:

总体服从正态分布, 总体标准差未知, 样本容量<30, 那么样本的均值抽样分布服从T~t(n-1)的T分布, 与标准正态分布相差较大
总体服从正态分布, 总体标准差未知, 样本容量>=30,那么样本的均值抽样分布服从T~t(n-1)的T分布, 与标准正态分布曲线几乎重合. 还可以用Z分布近似表达.

在这里插入图片描述

2.3 卡方分布

针对服从 z-分布的总体，如果将每次抽样求得的样本 z-分数求平方和，就可得到叫做卡方（Chi-square）的统计量
在这里插入图片描述
当样本无限大时，这个统计量会接近一种偏态的分布，如下图所示。这种分布和 t-分布类似，它的形态依赖于自由度的大小，称为卡方分布（Chi-square Distribution）

若总体均值 μ 无法得知，可用样本均值代替，此时的卡方就为
在这里插入图片描述
服从自由度为 n-1 的卡方分布，n-1 来自样本方差的有偏估计。

2.4 F分布

前面介绍的三个统计量针对的是都是组内（单个总体）比较，现在我们将目光转向另一方面：如何对比组间（两个总体）的差异。按照同样的思路，我们可以分别对两个总体进行抽样，得到它们的样本均值或方差的抽样分布。然后再对比各自的抽样分布统计量，比方说把两个卡方统计量求一下比值，就能大致确定它们的差异状况了。

F分布有着广泛的应用，在方差分析、回归方程的显著性检验中有着重要的地位。
设随机变量Y与Z相互独立，且Y和Z分别服从自由度为m和n的χ2分布，随机变量X有如下表达式：
在这里插入图片描述
则称X服从第一自由度为m，第二自由度为n的F分布，记为F(m, n)，简记为X ~ F(m, n)。

3. 中心极限定理

中心极限定理：设从均值为μ，方差为σ²（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值x̄的抽样分布近似服从均值为μ，方差为σ²/n 的正态分布
我们常把证明其极限分布为正态分布的定理统称为中心极限定理。中心极限定理要求n必须充分大，究竟要多大才算充分大呢？这和总体的分布形状有关。总体离正态越远，要求n越大

参考：https://mp.weixin.qq.com/s/z2Cdi0Mq5VfTlXO_kX9Mjw