统计系列(一)统计基础
在开篇中曾推荐过大家学习《商务与经济统计 精要版 原书第7版》,不知道大家有没有这种感觉,学完了不一定理解了,理解了不一定能正确应用。笔者并非统计科班出身,对其理解也是一点一滴逐步加深的。
本文通过数据分析师的角度,来讲解下分析师所需要掌握的基础。统计从整体上分为描述统计和推断统计,描述统计主要通过图表、数值的方式帮助我们理解数据并发现规律;而统计推断则是通过样本特征推断总体特征,推断分为参数估计、假设检验和回归分析。其中样本来源于抽样,假设检验方法来源于抽样分布。
除了掌握统计基础外,还需要一定的概率基础。最主要的就是随机变量的概率分布和中心极限定理,这也是统计推断的理论基础。整体的知识点如下:
描述统计
描述统计是数据分析使用最多的,常用于探索性数据分析(EDA)。
图表描述
- 直方图:分为频数分布直方图和频率分布直方图,可以用来直观显示随机变量的分布
- 条形图:条形图分为柱状图和水平条形图,可以用来直观显示组间差异
- 饼图:直观的展示各组占总体比例,并显示组间差异,但不宜分组过多
- 茎叶图:也是显示原始数据分布,但在数分中使用较少
- 散点图:直观显示两者之间的相关趋势
- 折线图:直观显示数据的时间趋势
- 箱线图:常用来显示数据离群点
数值描述
集中趋势
- 平均值:算数平均
x
ˉ
=
∑
x
i
n
\bar{x}=\frac{\sum x_{i}}{n}
xˉ=n∑xi;加权平均
x
ˉ
=
∑
w
i
x
i
∑
w
i
\bar{x}=\frac{\sum w_{i} x_{i}}{\sum w_{i}}
xˉ=∑wi∑wixi;几何平均
x
ˉ
g
=
(
x
1
)
(
x
2
)
⋯
(
x
n
)
n
=
[
(
x
1
)
(
x
2
)
⋯
(
x
n
)
]
1
/
n
\bar{x}_{g}=\sqrt[n]{\left(x_{1}\right)\left(x_{2}\right) \cdots\left(x_{n}\right)}=\left[\left(x_{1}\right)\left(x_{2}\right) \cdots\left(x_{n}\right)\right]^{1 / n}
xˉg=n(x1)(x2)⋯(xn)=[(x1)(x2)⋯(xn)]1/n
- 总计算数平均 μ = Σ x i N \mu=\frac{\Sigma x_{i}}{N} μ=NΣxi
- 众数:随机变量出现次数最多的结果值
- 分位数:将数据从小到大排序,等分100份选取指定位置的数则为百分位数,等分四等分取指定位置的数则为四分位数
- 中位数:中位数是分位数的一种,将数据从小到大排取50%分位的数据
- 最大值:随机变量最大的结果值
- 最小值:随机变量最小的结果值
离散程度
- 极差:最大值-最小值
- 四分位距:四分位数中的上四分位数(Q3)-下四分位数(Q1)
- 方差:衡量数据波动的统计量,其中样本方差为: s 2 = ∑ ( x i − x ˉ ) 2 n − 1 s^{2}=\frac{\sum\left(x_{i}-\bar{x}\right)^{2}}{n-1} s2=n−1∑(xi−xˉ)2,总体方差为: σ 2 = ∑ ( x i − μ ) 2 N \sigma^{2}=\frac{\sum\left(x_{i}-\mu\right)^{2}}{N} σ2=N∑(xi−μ)2
- 标准差:方差开根号的结果,其中样本标准差为: s = s 2 s=\sqrt{s^{2}} s=s2,总体标准差为: σ = σ 2 σ=\sqrt{σ^{2}} σ=σ2
- 变异系数:变异系数没有量纲,可用于比较不同单位的样本间的波动大小。计算方式为: c v = σ μ c_{v}=\frac{\sigma}{\mu} cv=μσ
分布形态
- 偏度:用来度量随机变量概率分布的不对称性。偏度大于0则右偏,日常中常根据尾巴方向进行判断,尾巴在右则右偏。右偏的数据常表现出
算术平均数>中位数>众数
,即大多数据堆积在左侧,而右侧存在极大值,因此使得众数靠左,均值靠右。 - 峰度:用来度量随机变量概率分布的陡峭程度。峰度越大,分布越陡峭,数据越集中,即表现为"瘦高"。
- z分数:衡量观测值与样本均值的距离, z i = x i − x ˉ s z_{i}=\frac{x_{i}-\bar{x}}{s} zi=sxi−xˉ表示观测值 x i x_i xi与样本均值 x ˉ \bar x xˉ有 z z z倍标准差。
- 切比雪夫定理:对于任何分布,约 1 − 1 z 2 1-\frac{1}{z^{2}} 1−z21的数据与均值在 z z z个标准差内
- 经验法则:对钟形分布,约 68%的数据与均值的距离在 1 个标准差内;在2,3个标准差内的数据分别约为95%,99%
- 异常值检测:偏离均值较远的离群点,统计上一般通过五数统计(箱线图)和 3 σ 3 \sigma 3σ原则进行判断
变量相关性
两个随机变量的线性关系,可以通过协方差 s x y = ∑ ( x i − x ˉ ) ( y i − y ˉ ) n − 1 s_{x y}=\frac{\sum\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{n-1} sxy=n−1∑(xi−xˉ)(yi−yˉ) 或者 r x y = s x y s x s y r_{x y}=\frac{s_{x y}}{s_{x} s_{y}} rxy=sxsysxy 相关系数进行度量。日常以相关系数 r r r使用较多, r r r绝对值越大,相关性越强,正号表示正相关,负号表示负相关。
统计推断
实际生活中,总体数据是无法全部获得的,常常需要根据样本数据去推断,因此统计推断的前提就是科学地进行抽样获取样本。样本数据可以估计总体的特征统计量,也可以用来验证假设,还可以通过回归进行预测。这些推断的基础都是基于中心极限定理和随机变量的概率分布。
抽样
抽样方法
常见的抽样方法有简单随机抽样、系统随机抽样、分层抽样和整群抽样,最常用的是简单随机抽样。
抽样分布
- 一次抽样产生一个样本统计量,多次抽样就会产生多个样本统计量,这些统计量的分布就是抽样分布,常作为假设检验的方法。常见的抽样分布有正态分布、t分布、卡方分布、F分布等。例如:
- 正态分布:总体方差已知,单个总体的样本均值服从正态分布。即 X ˉ − μ σ / n ∼ N ( 0 , 1 ) \frac{\bar X-\mu}{\sigma / \sqrt{n}} \sim N(0,1) σ/nXˉ−μ∼N(0,1)
- t分布:总体方差未知,单个总体的样本均值服从t分布。即 X ˉ − μ S / n ∼ t ( n − 1 ) \frac{\bar X-\mu}{S / \sqrt{n}} \sim t(n-1) S/nXˉ−μ∼t(n−1)
- 卡方分布:总体均值未知,单个总体的样本方差服从卡方分布。即 ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1)
- F分布:总体均值未知,两个总体的方差比服从F分布。即 S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{S_{1}^{2}/{S_{2}}^{2}}{\sigma_{1}^{2}/{\sigma_{2}}^{2}} \sim F(n_1-1,n_2-1) σ12/σ22S12/S22∼F(n1−1,n2−1)
- 当然抽样会造成一定的偏差,即抽样误差,可以通过计算所有样本统计量的标准差得到。即 s e = ∑ x ˉ n se=\frac{\sum{\bar x}}{n} se=n∑xˉ
参数估计
然而实际上,不会进行多次的抽样操作,往往只会一次抽样,因此就需要根据一次抽样的样本数据估计总体。
-
点估计
样本均值点估计:由于 E ( x ˉ ) = μ E(\bar{x})=\mu E(xˉ)=μ,所以可以直接用样本均值估计总体均值
抽样标准误(样本均值标准差): s e = σ n se = \frac{\sigma}{\sqrt{n}} se=nσ,总体标准差未知情况下可以用样本方差代替
样本均值的抽样分布:由中心极限定理,当样本量较大(统计上大于30),样本均值的抽样分布近似于正态分布
-
区间估计: x ˉ ± 边际误差 \bar x \pm 边际误差 xˉ±边际误差
当总体方差已知时: x ˉ ± z α / 2 σ n \bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} xˉ±zα/2nσ;当总体方差未知时: x ˉ ± t α / 2 s n \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} xˉ±tα/2ns,其中 s = ∑ ( x i − x ˉ ) 2 n − 1 s=\sqrt{\frac{\sum(x_i-\bar{x})^{2}}{n-1}} s=n−1∑(xi−xˉ)2
确定样本容量:当指定了边际误差为E时,则有 E = z α / 2 σ n E=z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} E=zα/2nσ,可得到 n = ( z α / 2 ) 2 σ 2 E 2 n=\frac{\left(z_{\alpha / 2}\right)^{2} \sigma^{2}}{E^{2}} n=E2(zα/2)2σ2
总体比率与样本均值存在差异
点估计
样本比例点估计:由于 E ( p ˉ ) = p E(\bar{p})=p E(pˉ)=p,所以可以直接用样本比例估计总体比例
抽样标准误: s e = p ( 1 − p ) n se = \sqrt{\frac{p(1-p)}{n}} se=np(1−p)
区间估计: p ˉ ± 边际误差 \bar p \pm 边际误差 pˉ±边际误差
区间: p ˉ ± z α / 2 p ˉ ( 1 − p ˉ ) n \bar{p} \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} pˉ±zα/2npˉ(1−pˉ)
确定样本容量:当指定了边际误差为E时, n = ( z α / 2 ) 2 p ∗ ( 1 − p ∗ ) E 2 n=\frac{\left(z_{\alpha / 2}\right)^{2} p^{*}\left(1-p^{*}\right)}{E^{2}} n=E2(zα/2)2p∗(1−p∗)
假设检验
假设
一般将自己想要证明的假设作为备择假设,与之互斥的作为原假设
第一类错误为拒真,第二类错误为存伪
日常需要控制第一类错误的概率 α \alpha α为5%,常称为显著性水平。第二类错误的概率 β \beta β为20%,而统计功效为 1 − β 1-\beta 1−β
检验
一般需要根据假设角度确定是单尾还是双尾检验,通过样本的比较情况确定是单样本、独立双样本、配对双样本还是多样本检验,最后根据数据特征选择检验统计量,采取t检验、z检验、方差分析还是卡方分析。
对于总体均值而言:
-
假设角度(假设单样本检验 μ 0 \mu_0 μ0)
左尾检验: H 0 : μ ≥ μ 0 , H a : μ < μ 0 \mathrm{H_0}: \mu \geq \mu_{0}, \quad \mathrm{H_a}: \mu<\mu_{0} H0:μ≥μ0,Ha:μ<μ0
右尾检验: H 0 : μ ≤ μ 0 , H a : μ > μ 0 \mathrm{H_0}: \mu \leq \mu_{0}, \quad \mathrm{H_a}: \mu>\mu_{0} H0:μ≤μ0,Ha:μ>μ0
双尾检验: H 0 : μ = μ 0 , H a : μ ≠ μ 0 \mathrm{H_0}: \mu = \mu_{0}, \quad \mathrm{H_a}: \mu \neq \mu_{0} H0:μ=μ0,Ha:μ=μ0
-
样本比较角度
单样本检验: μ \mu μ与 μ 0 \mu_0 μ0
独立双样本检验: μ 1 \mu_1 μ1与 μ 2 \mu_2 μ2
配对样本检验: d d d : t = d ˉ − μ d s d n t=\frac{\bar{d}-\mu_{d}}{\frac{s_{d}}{\sqrt{n}}} t=nsddˉ−μd,其中 μ d \mu_d μd为配对样本的均值, d d d为配对样本数据
多样本检验: μ 1 \mu_1 μ1与 μ 2 \mu_2 μ2与 μ 3 \mu_3 μ3等 : F = M S T R M S E F=\frac{M S T R}{M S E} F=MSEMSTR
-
数据特征
总体标准差已知的单样本检验:z检验 z = x ˉ − μ 0 σ / n z=\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}} z=σ/nxˉ−μ0
总体标准差未知的单样本检验:t检验 t = x ˉ − μ 0 σ / n t=\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}} t=σ/nxˉ−μ0
总体标准差已知的独立双样本检验:z检验 z = ( x ˉ 1 − x ˉ 2 ) − D 0 σ 1 2 n 1 + σ 2 2 n 2 z=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-D_{0}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} z=n1σ12+n2σ22(xˉ1−xˉ2)−D0 ,其中 D 0 D_0 D0为常数值,日常一般设为0
总体标准差未知的独立双样本检验:t检验 t = ( x ˉ 1 − x ˉ 2 ) − D 0 s 1 2 n 1 + s 2 2 n 2 t=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-D_{0}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}} t=n1s12+n2s22(xˉ1−xˉ2)−D0
总体比率与总体均值存在差异
假设角度(假设单样本检验 p 0 p_0 p0)
左尾检验: H 0 : p ≥ p 0 , H a : p < p 0 \mathrm{H_0}: p \geq p_{0}, \quad \mathrm{H_a}: p < p_{0} H0:p≥p0,Ha:p<p0
右尾检验: H 0 : p ≤ p 0 , H a : p > p 0 \mathrm{H_0}: p \leq p_{0}, \quad \mathrm{H_a}: p>p_{0} H0:p≤p0,Ha:p>p0
双尾检验: H 0 : p = p 0 , H a : p ≠ p 0 \mathrm{H_0}: p = p_{0}, \quad \mathrm{H_a}: p \neq p_{0} H0:p=p0,Ha:p=p0
样本比较角度
单样本检验: p p p与 p 0 p_0 p0: z = p ˉ − p 0 p 0 ( 1 − p 0 ) n z=\frac{\bar{p}-p_{0}}{\sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}} z=np0(1−p0)pˉ−p0
独立双样本检验: p 1 p_1 p1与 p 2 p_2 p2 : z = ( p ˉ 1 − p ˉ 2 ) p ˉ ( 1 − p ˉ ) ( 1 n 1 + 1 n 2 ) z=\frac{\left(\bar{p}_{1}-\bar{p}_{2}\right)}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}} z=pˉ(1−pˉ)(n11+n21)(pˉ1−pˉ2)
多样本检验: p 1 p_1 p1与 p 2 p_2 p2与 p 3 p_3 p3等 : χ 2 = ∑ i = 1 k ( f i − e i ) 2 e i \chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-e_{i}\right)^{2}}{e_{i}} χ2=∑i=1kei(fi−ei)2
决策
常用的决策方式有p值法、检验统计量与临界值比较法、置信区间法。日常使用的就是p值法和置信区间法。
回归分析
一元回归
一元回归是回归的基础,在满足基本假设的前提下用最小二乘法估计参数。判决系数 R 2 R^2 R2衡量拟合效果,显著性检验衡量自变量是否影响因变量,当自变量通过显著性检验后,得到一元回归方程就可以进行预测了。通过残差分析辅助验证回归方程的可靠性。
多元回归
多元回归是一元回归的扩展,多元回归的基本假设有所增加
概率基础
随机试验
一次随机试验产生一次基本事件,由于该事件的结果是随机的,又称为随机事件,所有随机事件的组合即为样本空间。
随机变量
将随机事件映射到数字空间,则称为随机变量。在多次试验后,每个X的频率趋于稳定,则将频率记作概率。
概率分布
-
离散型
伯努利分布:
概率函数: P ( X = x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } P(X=x)=p^{x}(1-p)^{1-x}, x \in\{0,1\} P(X=x)=px(1−p)1−x,x∈{0,1}
数学期望: E ( X ) = p E(X)=p E(X)=p
方差: D ( X ) = p ( 1 − p ) D(X)=p(1-p) D(X)=p(1−p)
二项分布: X ∼ B ( n , p ) X \sim B(n, p) X∼B(n,p)
概率函数: P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
数学期望: E ( X ) = n p E(X)=np E(X)=np
方差: D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)
几何分布: X ∼ G E ( p ) X \sim GE(p) X∼GE(p)
概率函数: P ( X = k ) = ( 1 − p ) k − 1 p P(X=k)=(1-p)^{k-1}p P(X=k)=(1−p)k−1p
数学期望: E ( X ) = 1 p E(X)=\frac{1}{p} E(X)=p1
方差: D ( X ) = 1 − p p 2 D(X)=\frac{1-p}{p^2} D(X)=p21−p
泊松分布: X ∼ P ( λ ) X \sim P(\lambda) X∼P(λ)
概率函数: P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ
数学期望: E ( X ) = λ E(X)=\lambda E(X)=λ
方差: D ( X ) = λ D(X)=\lambda D(X)=λ
多项分布: X ∼ P N ( N : p 1 . p 2 , … , p n ) X \sim PN(N:p1.p2,…,pn) X∼PN(N:p1.p2,…,pn)
概率函数: P ( X 1 = x 1 , X 2 = x 2 , . . . , X k = x k ) = n ! x 1 ! x 2 ! . . . x k ! p 1 x 1 p 2 x 2 . . . p k x k P(X_1=x_1, X_2=x_2,..., X_k=x_k)=\frac{n!}{x_1!x_2!...x_k!}p_{1}^{x_1}p_{2}^{x_2}...p_{k}^{x_k} P(X1=x1,X2=x2,...,Xk=xk)=x1!x2!...xk!n!p1x1p2x2...pkxk
数学期望: E ( X i ) = n p i E(X_i)=np_i E(Xi)=npi
方差: D ( X i ) = n p i ( 1 − p i ) D(X_i)=np_i(1-p_i) D(Xi)=npi(1−pi)
-
连续型
均匀分布: X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b)
概率函数: f ( x ) = { 0 , x < a 或 x > b 1 b − a , a ≤ x ≤ b f(x)=\left\{\begin{array}{l}0, x<a \text { 或 } x>b \\ \frac{1}{b-a}, a \leq x \leq b\end{array}\right. f(x)={0,x<a 或 x>bb−a1,a≤x≤b
数学期望: E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b
方差: D ( X ) = ( b − a ) 2 12 D(X)=\frac{(b-a)^2}{12} D(X)=12(b−a)2
指数分布: X ∼ E ( λ ) X \sim E(\lambda) X∼E(λ)
概率函数: f ( x ) = λ e − λ x , x ≥ 0 f(x)=\lambda e^{-\lambda x},x \geq 0 f(x)=λe−λx,x≥0
数学期望: E ( x ) = 1 λ E(x)=\frac{1}{\lambda} E(x)=λ1
方差: D ( x ) = 1 λ 2 D(x)=\frac{1}{\lambda^2} D(x)=λ21
伽马分布: X ∼ G a ( α , λ ) X \sim Ga(\alpha,\lambda) X∼Ga(α,λ)
概率函数: f ( x ) = λ α Γ ( α ) x α − 1 e − λ x , x ≥ 0 f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x \geq 0 f(x)=Γ(α)λαxα−1e−λx,x≥0,其中 α > 0 \alpha>0 α>0为形状参数, λ > 0 \lambda>0 λ>0为尺度参数
数学期望: E ( X ) = α λ E(X)=\frac{\alpha}{\lambda} E(X)=λα
方差: D ( X ) = α λ 2 D(X)=\frac{\alpha}{\lambda^2} D(X)=λ2α
高斯分布/正态分布: X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2)
概率函数: f ( x ) = 1 σ 2 π e − ( x − μ ) 2 / 2 σ 2 f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{-(x-\mu)^{2} / 2 \sigma^{2}} f(x)=σ2π1e−(x−μ)2/2σ2
数学期望: E ( X ) = μ E(X)=\mu E(X)=μ
方差: D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2
例如正常抛硬币试验,抛硬币的所有结果只能为正反。即样本空间为{ 正面,反面 };如果抛一次硬币(一次随机试验),其结果为正面(随机事件),将该结果记为1。再抛一次硬币,其结果为反面,将该结果记为2。因此该抛硬币的结果设为随机变量X,X的结果可能为1或者2,多次试验后,X的分布服从二项分布,所以X=1的概率为0.5。
中心极限定理
给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本(统计上大于30),重复 m 次,分别求出这m次的样本平均值。 这些样本平均值的分布近似正态分布。
中心极限定理可用于估算抽样标准误: s e = σ n se = \frac{\sigma}{\sqrt{n}} se=nσ
总结
在日常分析工作中,描述统计常用于探索性数据分析(EDA),概率分布常用于模拟数据,假设检验常用于AB试验。
共勉~