统计系列（一）统计基础

HsuHeinrich

已于 2023-02-11 12:22:09 修改

阅读量1.7w

点赞数 3

分类专栏：数据分析文章标签：概率论数据分析

于 2023-02-08 12:28:16 首次发布

本文链接：https://blog.csdn.net/weixin_39293132/article/details/128933452

版权

数据分析专栏收录该内容

64 篇文章 41 订阅

订阅专栏

统计系列（一）统计基础

在开篇中曾推荐过大家学习《商务与经济统计精要版原书第7版》，不知道大家有没有这种感觉，学完了不一定理解了，理解了不一定能正确应用。笔者并非统计科班出身，对其理解也是一点一滴逐步加深的。

本文通过数据分析师的角度，来讲解下分析师所需要掌握的基础。统计从整体上分为描述统计和推断统计，描述统计主要通过图表、数值的方式帮助我们理解数据并发现规律；而统计推断则是通过样本特征推断总体特征，推断分为参数估计、假设检验和回归分析。其中样本来源于抽样，假设检验方法来源于抽样分布。

除了掌握统计基础外，还需要一定的概率基础。最主要的就是随机变量的概率分布和中心极限定理，这也是统计推断的理论基础。整体的知识点如下：

描述统计

描述统计是数据分析使用最多的，常用于探索性数据分析（EDA）。

图表描述

直方图：分为频数分布直方图和频率分布直方图，可以用来直观显示随机变量的分布
条形图：条形图分为柱状图和水平条形图，可以用来直观显示组间差异
饼图：直观的展示各组占总体比例，并显示组间差异，但不宜分组过多
茎叶图：也是显示原始数据分布，但在数分中使用较少
散点图：直观显示两者之间的相关趋势
折线图：直观显示数据的时间趋势
箱线图：常用来显示数据离群点

数值描述

集中趋势

平均值：算数平均 $\bar{x}=\frac{\sum x_{i}}{n}$ ；加权平均 $\bar{x}=\frac{\sum w_{i} x_{i}}{\sum w_{i}}$ ；几何平均 $\bar{x}_{g}=\sqrt[n]{\left(x_{1}\right)\left(x_{2}\right) \cdots\left(x_{n}\right)}=\left[\left(x_{1}\right)\left(x_{2}\right) \cdots\left(x_{n}\right)\right]^{1 / n}$
- 总计算数平均 $\mu=\frac{\Sigma x_{i}}{N}$
众数：随机变量出现次数最多的结果值
分位数：将数据从小到大排序，等分100份选取指定位置的数则为百分位数，等分四等分取指定位置的数则为四分位数
中位数：中位数是分位数的一种，将数据从小到大排取50%分位的数据
最大值：随机变量最大的结果值
最小值：随机变量最小的结果值

离散程度

极差：最大值-最小值
四分位距：四分位数中的上四分位数（Q3）-下四分位数（Q1）
方差：衡量数据波动的统计量，其中样本方差为： $s^{2}=\frac{\sum\left(x_{i}-\bar{x}\right)^{2}}{n-1}$ ，总体方差为： $\sigma^{2}=\frac{\sum\left(x_{i}-\mu\right)^{2}}{N}$
标准差：方差开根号的结果，其中样本标准差为： $s=\sqrt{s^{2}}$ ，总体标准差为： $σ=\sqrt{σ^{2}}$
变异系数：变异系数没有量纲，可用于比较不同单位的样本间的波动大小。计算方式为： $c_{v}=\frac{\sigma}{\mu}$

分布形态

偏度：用来度量随机变量概率分布的不对称性。偏度大于0则右偏，日常中常根据尾巴方向进行判断，尾巴在右则右偏。右偏的数据常表现出算术平均数>中位数>众数，即大多数据堆积在左侧，而右侧存在极大值，因此使得众数靠左，均值靠右。
峰度：用来度量随机变量概率分布的陡峭程度。峰度越大，分布越陡峭，数据越集中，即表现为"瘦高"。
z分数：衡量观测值与样本均值的距离， $z_{i}=\frac{x_{i}-\bar{x}}{s}$ 表示观测值 $x_i$ 与样本均值 $\bar x$ 有 $z$ 倍标准差。
切比雪夫定理：对于任何分布，约 $1-\frac{1}{z^{2}}$ 的数据与均值在 $z$ 个标准差内
经验法则：对钟形分布，约 68%的数据与均值的距离在 1 个标准差内；在2，3个标准差内的数据分别约为95%，99%
异常值检测：偏离均值较远的离群点，统计上一般通过五数统计（箱线图）和 $\sigma$ 原则进行判断

变量相关性

两个随机变量的线性关系，可以通过协方差 $s_{x y}=\frac{\sum\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{n-1}$ 或者 $r_{x y}=\frac{s_{x y}}{s_{x} s_{y}}$ 相关系数进行度量。日常以相关系数 $r$ 使用较多， $r$ 绝对值越大，相关性越强，正号表示正相关，负号表示负相关。

统计推断

实际生活中，总体数据是无法全部获得的，常常需要根据样本数据去推断，因此统计推断的前提就是科学地进行抽样获取样本。样本数据可以估计总体的特征统计量，也可以用来验证假设，还可以通过回归进行预测。这些推断的基础都是基于中心极限定理和随机变量的概率分布。

抽样

抽样方法

常见的抽样方法有简单随机抽样、系统随机抽样、分层抽样和整群抽样，最常用的是简单随机抽样。

抽样分布

一次抽样产生一个样本统计量，多次抽样就会产生多个样本统计量，这些统计量的分布就是抽样分布，常作为假设检验的方法。常见的抽样分布有正态分布、t分布、卡方分布、F分布等。例如：

正态分布：总体方差已知，单个总体的样本均值服从正态分布。即 $\frac{\bar X-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$
t分布：总体方差未知，单个总体的样本均值服从t分布。即 $\frac{\bar X-\mu}{S / \sqrt{n}} \sim t(n-1)$
卡方分布：总体均值未知，单个总体的样本方差服从卡方分布。即 $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$
F分布：总体均值未知，两个总体的方差比服从F分布。即 $\frac{S_{1}^{2}/{S_{2}}^{2}}{\sigma_{1}^{2}/{\sigma_{2}}^{2}} \sim F(n_1-1,n_2-1)$

当然抽样会造成一定的偏差，即抽样误差，可以通过计算所有样本统计量的标准差得到。即 $se=\frac{\sum{\bar x}}{n}$

参数估计

然而实际上，不会进行多次的抽样操作，往往只会一次抽样，因此就需要根据一次抽样的样本数据估计总体。

点估计

样本均值点估计：由于 $E(\bar{x})=\mu$ ，所以可以直接用样本均值估计总体均值

抽样标准误（样本均值标准差）： $\frac{\sigma}{\sqrt{n}}$ ，总体标准差未知情况下可以用样本方差代替

样本均值的抽样分布：由中心极限定理，当样本量较大（统计上大于30），样本均值的抽样分布近似于正态分布
区间估计： $\bar x \pm 边际误差$

当总体方差已知时： $\bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}$ ；当总体方差未知时： $\bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}}$ ，其中 $s=\sqrt{\frac{\sum(x_i-\bar{x})^{2}}{n-1}}$

确定样本容量：当指定了边际误差为E时，则有 $E=z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}$ ，可得到 $n=\frac{\left(z_{\alpha / 2}\right)^{2} \sigma^{2}}{E^{2}}$

总体比率与样本均值存在差异

点估计

样本比例点估计：由于 $E(\bar{p})=p$ ，所以可以直接用样本比例估计总体比例

抽样标准误： $\sqrt{\frac{p(1-p)}{n}}$

区间估计： $\bar p \pm 边际误差$

区间： $\bar{p} \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}(1-\bar{p})}{n}}$

确定样本容量：当指定了边际误差为E时， $n=\frac{\left(z_{\alpha / 2}\right)^{2} p^{*}\left(1-p^{*}\right)}{E^{2}}$

假设检验

假设

一般将自己想要证明的假设作为备择假设，与之互斥的作为原假设

第一类错误为拒真，第二类错误为存伪

日常需要控制第一类错误的概率 $\alpha$ 为5%，常称为显著性水平。第二类错误的概率 $\beta$ 为20%，而统计功效为 $1-\beta$

检验

一般需要根据假设角度确定是单尾还是双尾检验，通过样本的比较情况确定是单样本、独立双样本、配对双样本还是多样本检验，最后根据数据特征选择检验统计量，采取t检验、z检验、方差分析还是卡方分析。

对于总体均值而言：

假设角度（假设单样本检验 $\mu_0$ ）

左尾检验： $\mathrm{H_0}: \mu \geq \mu_{0}, \quad \mathrm{H_a}: \mu<\mu_{0}$

右尾检验： $\mathrm{H_0}: \mu \leq \mu_{0}, \quad \mathrm{H_a}: \mu>\mu_{0}$

双尾检验： $\mathrm{H_0}: \mu = \mu_{0}, \quad \mathrm{H_a}: \mu \neq \mu_{0}$
样本比较角度

单样本检验： $\mu$ 与 $\mu_0$

独立双样本检验： $\mu_1$ 与 $\mu_2$

配对样本检验： $d$ ： $t=\frac{\bar{d}-\mu_{d}}{\frac{s_{d}}{\sqrt{n}}}$ ，其中 $\mu_d$ 为配对样本的均值， $d$ 为配对样本数据

多样本检验： $\mu_1$ 与 $\mu_2$ 与 $\mu_3$ 等： $F=\frac{M S T R}{M S E}$
数据特征

总体标准差已知的单样本检验：z检验 $z=\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}}$

总体标准差未知的单样本检验：t检验 $t=\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}}$

总体标准差已知的独立双样本检验：z检验 $z=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-D_{0}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}$ ，其中 $D_0$ 为常数值，日常一般设为0

总体标准差未知的独立双样本检验：t检验 $t=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-D_{0}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}$

总体比率与总体均值存在差异

假设角度（假设单样本检验 $p_0$ ）

左尾检验： $\mathrm{H_0}: p \geq p_{0}, \quad \mathrm{H_a}: p < p_{0}$

右尾检验： $\mathrm{H_0}: p \leq p_{0}, \quad \mathrm{H_a}: p>p_{0}$

双尾检验： $\mathrm{H_0}: p = p_{0}, \quad \mathrm{H_a}: p \neq p_{0}$

样本比较角度

单样本检验： $p$ 与 $p_0$ ： $z=\frac{\bar{p}-p_{0}}{\sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}}$

独立双样本检验： $p_1$ 与 $p_2$ ： $z=\frac{\left(\bar{p}_{1}-\bar{p}_{2}\right)}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}}$

多样本检验： $p_1$ 与 $p_2$ 与 $p_3$ 等： $\chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-e_{i}\right)^{2}}{e_{i}}$

决策

常用的决策方式有p值法、检验统计量与临界值比较法、置信区间法。日常使用的就是p值法和置信区间法。

回归分析

一元回归

一元回归是回归的基础，在满足基本假设的前提下用最小二乘法估计参数。判决系数 $R^2$ 衡量拟合效果，显著性检验衡量自变量是否影响因变量，当自变量通过显著性检验后，得到一元回归方程就可以进行预测了。通过残差分析辅助验证回归方程的可靠性。

多元回归

多元回归是一元回归的扩展，多元回归的基本假设有所增加

概率基础

随机试验

一次随机试验产生一次基本事件，由于该事件的结果是随机的，又称为随机事件，所有随机事件的组合即为样本空间。

随机变量

将随机事件映射到数字空间，则称为随机变量。在多次试验后，每个X的频率趋于稳定，则将频率记作概率。

概率分布

离散型

伯努利分布：

概率函数： $P(X=x)=p^{x}(1-p)^{1-x}, x \in\{0,1\}$

数学期望： $E (X) = p$

方差： $D (X) = p (1 - p)$

二项分布： $\sim B(n, p)$

概率函数： $P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k}$

数学期望： $E (X) = n p$

方差： $D (X) = n p (1 - p)$

几何分布： $\sim GE(p)$

概率函数： $P(X=k)=(1-p)^{k-1}p$

数学期望： $E(X)=\frac{1}{p}$

方差： $D(X)=\frac{1-p}{p^2}$

泊松分布： $\sim P(\lambda)$

概率函数： $P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$

数学期望： $E(X)=\lambda$

方差： $D(X)=\lambda$

多项分布： $\sim PN(N：p1．p2，…，pn)$

概率函数： $P(X_1=x_1, X_2=x_2,..., X_k=x_k)=\frac{n!}{x_1!x_2!...x_k!}p_{1}^{x_1}p_{2}^{x_2}...p_{k}^{x_k}$

数学期望： $E(X_i)=np_i$

方差： $D(X_i)=np_i(1-p_i)$
连续型

均匀分布： $\sim U(a, b)$

概率函数： $f(x)=\left\{\begin{array}{l}0, x<a \text { 或 } x>b \\ \frac{1}{b-a}, a \leq x \leq b\end{array}\right.$

数学期望： $E(X)=\frac{a+b}{2}$

方差： $D(X)=\frac{(b-a)^2}{12}$

指数分布： $\sim E(\lambda)$

概率函数： $f(x)=\lambda e^{-\lambda x},x \geq 0$

数学期望： $E(x)=\frac{1}{\lambda}$

方差： $D(x)=\frac{1}{\lambda^2}$

伽马分布： $\sim Ga(\alpha,\lambda)$

概率函数： $f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x \geq 0$ ，其中 $\alpha>0$ 为形状参数， $\lambda>0$ 为尺度参数

数学期望： $E(X)=\frac{\alpha}{\lambda}$

方差： $D(X)=\frac{\alpha}{\lambda^2}$

高斯分布/正态分布： $\sim N(\mu,\sigma^2)$

概率函数： $f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{-(x-\mu)^{2} / 2 \sigma^{2}}$

数学期望： $E(X)=\mu$

方差： $D(X)=\sigma^2$

例如正常抛硬币试验，抛硬币的所有结果只能为正反。即样本空间为{ 正面，反面 }；如果抛一次硬币（一次随机试验），其结果为正面（随机事件），将该结果记为1。再抛一次硬币，其结果为反面，将该结果记为2。因此该抛硬币的结果设为随机变量X，X的结果可能为1或者2，多次试验后，X的分布服从二项分布，所以X=1的概率为0.5。