统计系列(一)统计基础

统计系列(一)统计基础

在开篇中曾推荐过大家学习《商务与经济统计 精要版 原书第7版》,不知道大家有没有这种感觉,学完了不一定理解了,理解了不一定能正确应用。笔者并非统计科班出身,对其理解也是一点一滴逐步加深的。

本文通过数据分析师的角度,来讲解下分析师所需要掌握的基础。统计从整体上分为描述统计和推断统计,描述统计主要通过图表、数值的方式帮助我们理解数据并发现规律;而统计推断则是通过样本特征推断总体特征,推断分为参数估计、假设检验和回归分析。其中样本来源于抽样,假设检验方法来源于抽样分布。

除了掌握统计基础外,还需要一定的概率基础。最主要的就是随机变量的概率分布和中心极限定理,这也是统计推断的理论基础。整体的知识点如下:
统计基础

描述统计

描述统计是数据分析使用最多的,常用于探索性数据分析(EDA)。

图表描述

  • 直方图:分为频数分布直方图和频率分布直方图,可以用来直观显示随机变量的分布
  • 条形图:条形图分为柱状图和水平条形图,可以用来直观显示组间差异
  • 饼图:直观的展示各组占总体比例,并显示组间差异,但不宜分组过多
  • 茎叶图:也是显示原始数据分布,但在数分中使用较少
  • 散点图:直观显示两者之间的相关趋势
  • 折线图:直观显示数据的时间趋势
  • 箱线图:常用来显示数据离群点

数值描述

集中趋势
  • 平均值:算数平均 x ˉ = ∑ x i n \bar{x}=\frac{\sum x_{i}}{n} xˉ=nxi;加权平均 x ˉ = ∑ w i x i ∑ w i \bar{x}=\frac{\sum w_{i} x_{i}}{\sum w_{i}} xˉ=wiwixi;几何平均 x ˉ g = ( x 1 ) ( x 2 ) ⋯ ( x n ) n = [ ( x 1 ) ( x 2 ) ⋯ ( x n ) ] 1 / n \bar{x}_{g}=\sqrt[n]{\left(x_{1}\right)\left(x_{2}\right) \cdots\left(x_{n}\right)}=\left[\left(x_{1}\right)\left(x_{2}\right) \cdots\left(x_{n}\right)\right]^{1 / n} xˉg=n(x1)(x2)(xn) =[(x1)(x2)(xn)]1/n
    • 总计算数平均 μ = Σ x i N \mu=\frac{\Sigma x_{i}}{N} μ=NΣxi
  • 众数:随机变量出现次数最多的结果值
  • 分位数:将数据从小到大排序,等分100份选取指定位置的数则为百分位数,等分四等分取指定位置的数则为四分位数
  • 中位数:中位数是分位数的一种,将数据从小到大排取50%分位的数据
  • 最大值:随机变量最大的结果值
  • 最小值:随机变量最小的结果值
离散程度
  • 极差:最大值-最小值
  • 四分位距:四分位数中的上四分位数(Q3)-下四分位数(Q1)
  • 方差:衡量数据波动的统计量,其中样本方差为: s 2 = ∑ ( x i − x ˉ ) 2 n − 1 s^{2}=\frac{\sum\left(x_{i}-\bar{x}\right)^{2}}{n-1} s2=n1(xixˉ)2,总体方差为: σ 2 = ∑ ( x i − μ ) 2 N \sigma^{2}=\frac{\sum\left(x_{i}-\mu\right)^{2}}{N} σ2=N(xiμ)2
  • 标准差:方差开根号的结果,其中样本标准差为: s = s 2 s=\sqrt{s^{2}} s=s2 ,总体标准差为: σ = σ 2 σ=\sqrt{σ^{2}} σ=σ2
  • 变异系数:变异系数没有量纲,可用于比较不同单位的样本间的波动大小。计算方式为: c v = σ μ c_{v}=\frac{\sigma}{\mu} cv=μσ
分布形态
  • 偏度:用来度量随机变量概率分布的不对称性。偏度大于0则右偏,日常中常根据尾巴方向进行判断,尾巴在右则右偏。右偏的数据常表现出算术平均数>中位数>众数,即大多数据堆积在左侧,而右侧存在极大值,因此使得众数靠左,均值靠右。
  • 峰度:用来度量随机变量概率分布的陡峭程度。峰度越大,分布越陡峭,数据越集中,即表现为"瘦高"。
  • z分数:衡量观测值与样本均值的距离, z i = x i − x ˉ s z_{i}=\frac{x_{i}-\bar{x}}{s} zi=sxixˉ表示观测值 x i x_i xi与样本均值 x ˉ \bar x xˉ z z z倍标准差。
  • 切比雪夫定理:对于任何分布,约 1 − 1 z 2 1-\frac{1}{z^{2}} 1z21的数据与均值在 z z z个标准差内
  • 经验法则:对钟形分布,约 68%的数据与均值的距离在 1 个标准差内;在2,3个标准差内的数据分别约为95%,99%
  • 异常值检测:偏离均值较远的离群点,统计上一般通过五数统计(箱线图)和 3 σ 3 \sigma 3σ原则进行判断
变量相关性

两个随机变量的线性关系,可以通过协方差 s x y = ∑ ( x i − x ˉ ) ( y i − y ˉ ) n − 1 s_{x y}=\frac{\sum\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{n-1} sxy=n1(xixˉ)(yiyˉ) 或者 r x y = s x y s x s y r_{x y}=\frac{s_{x y}}{s_{x} s_{y}} rxy=sxsysxy 相关系数进行度量。日常以相关系数 r r r使用较多, r r r绝对值越大,相关性越强,正号表示正相关,负号表示负相关。

统计推断

实际生活中,总体数据是无法全部获得的,常常需要根据样本数据去推断,因此统计推断的前提就是科学地进行抽样获取样本。样本数据可以估计总体的特征统计量,也可以用来验证假设,还可以通过回归进行预测。这些推断的基础都是基于中心极限定理和随机变量的概率分布。

抽样

抽样方法

常见的抽样方法有简单随机抽样、系统随机抽样、分层抽样和整群抽样,最常用的是简单随机抽样。

抽样分布
  1. 一次抽样产生一个样本统计量,多次抽样就会产生多个样本统计量,这些统计量的分布就是抽样分布,常作为假设检验的方法。常见的抽样分布有正态分布、t分布、卡方分布、F分布等。例如:
  • 正态分布:总体方差已知,单个总体的样本均值服从正态分布。即 X ˉ − μ σ / n ∼ N ( 0 , 1 ) \frac{\bar X-\mu}{\sigma / \sqrt{n}} \sim N(0,1) σ/n XˉμN(0,1)
  • t分布:总体方差未知,单个总体的样本均值服从t分布。即 X ˉ − μ S / n ∼ t ( n − 1 ) \frac{\bar X-\mu}{S / \sqrt{n}} \sim t(n-1) S/n Xˉμt(n1)
  • 卡方分布:总体均值未知,单个总体的样本方差服从卡方分布。即 ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n1)S2χ2(n1)
  • F分布:总体均值未知,两个总体的方差比服从F分布。即 S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{S_{1}^{2}/{S_{2}}^{2}}{\sigma_{1}^{2}/{\sigma_{2}}^{2}} \sim F(n_1-1,n_2-1) σ12/σ22S12/S22F(n11,n21)
  1. 当然抽样会造成一定的偏差,即抽样误差,可以通过计算所有样本统计量的标准差得到。即 s e = ∑ x ˉ n se=\frac{\sum{\bar x}}{n} se=nxˉ
参数估计

然而实际上,不会进行多次的抽样操作,往往只会一次抽样,因此就需要根据一次抽样的样本数据估计总体。

  1. 点估计

    样本均值点估计:由于 E ( x ˉ ) = μ E(\bar{x})=\mu E(xˉ)=μ,所以可以直接用样本均值估计总体均值

    抽样标准误(样本均值标准差): s e = σ n se = \frac{\sigma}{\sqrt{n}} se=n σ,总体标准差未知情况下可以用样本方差代替

    样本均值的抽样分布:由中心极限定理,当样本量较大(统计上大于30),样本均值的抽样分布近似于正态分布

  2. 区间估计: x ˉ ± 边际误差 \bar x \pm 边际误差 xˉ±边际误差

    当总体方差已知时: x ˉ ± z α / 2 σ n \bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} xˉ±zα/2n σ;当总体方差未知时: x ˉ ± t α / 2 s n \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} xˉ±tα/2n s,其中 s = ∑ ( x i − x ˉ ) 2 n − 1 s=\sqrt{\frac{\sum(x_i-\bar{x})^{2}}{n-1}} s=n1(xixˉ)2

    确定样本容量:当指定了边际误差为E时,则有 E = z α / 2 σ n E=z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} E=zα/2n σ,可得到 n = ( z α / 2 ) 2 σ 2 E 2 n=\frac{\left(z_{\alpha / 2}\right)^{2} \sigma^{2}}{E^{2}} n=E2(zα/2)2σ2

总体比率与样本均值存在差异

  1. 点估计

    样本比例点估计:由于 E ( p ˉ ) = p E(\bar{p})=p E(pˉ)=p,所以可以直接用样本比例估计总体比例

    抽样标准误: s e = p ( 1 − p ) n se = \sqrt{\frac{p(1-p)}{n}} se=np(1p)

  2. 区间估计: p ˉ ± 边际误差 \bar p \pm 边际误差 pˉ±边际误差

    区间: p ˉ ± z α / 2 p ˉ ( 1 − p ˉ ) n \bar{p} \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} pˉ±zα/2npˉ(1pˉ)

    确定样本容量:当指定了边际误差为E时, n = ( z α / 2 ) 2 p ∗ ( 1 − p ∗ ) E 2 n=\frac{\left(z_{\alpha / 2}\right)^{2} p^{*}\left(1-p^{*}\right)}{E^{2}} n=E2(zα/2)2p(1p)

假设检验

假设

一般将自己想要证明的假设作为备择假设,与之互斥的作为原假设

第一类错误为拒真,第二类错误为存伪

日常需要控制第一类错误的概率 α \alpha α为5%,常称为显著性水平。第二类错误的概率 β \beta β为20%,而统计功效为 1 − β 1-\beta 1β

检验

一般需要根据假设角度确定是单尾还是双尾检验,通过样本的比较情况确定是单样本、独立双样本、配对双样本还是多样本检验,最后根据数据特征选择检验统计量,采取t检验、z检验、方差分析还是卡方分析。

对于总体均值而言:

  1. 假设角度(假设单样本检验 μ 0 \mu_0 μ0

    左尾检验: H 0 : μ ≥ μ 0 , H a : μ < μ 0 \mathrm{H_0}: \mu \geq \mu_{0}, \quad \mathrm{H_a}: \mu<\mu_{0} H0:μμ0,Ha:μ<μ0

    右尾检验: H 0 : μ ≤ μ 0 , H a : μ > μ 0 \mathrm{H_0}: \mu \leq \mu_{0}, \quad \mathrm{H_a}: \mu>\mu_{0} H0:μμ0,Ha:μ>μ0

    双尾检验: H 0 : μ = μ 0 , H a : μ ≠ μ 0 \mathrm{H_0}: \mu = \mu_{0}, \quad \mathrm{H_a}: \mu \neq \mu_{0} H0:μ=μ0,Ha:μ=μ0

  2. 样本比较角度

    单样本检验: μ \mu μ μ 0 \mu_0 μ0

    独立双样本检验: μ 1 \mu_1 μ1 μ 2 \mu_2 μ2

    配对样本检验: d d d t = d ˉ − μ d s d n t=\frac{\bar{d}-\mu_{d}}{\frac{s_{d}}{\sqrt{n}}} t=n sddˉμd,其中 μ d \mu_d μd为配对样本的均值, d d d为配对样本数据

    多样本检验: μ 1 \mu_1 μ1 μ 2 \mu_2 μ2 μ 3 \mu_3 μ3等 : F = M S T R M S E F=\frac{M S T R}{M S E} F=MSEMSTR

  3. 数据特征

    总体标准差已知的单样本检验:z检验 z = x ˉ − μ 0 σ / n z=\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}} z=σ/n xˉμ0

    总体标准差未知的单样本检验:t检验 t = x ˉ − μ 0 σ / n t=\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}} t=σ/n xˉμ0

    总体标准差已知的独立双样本检验:z检验 z = ( x ˉ 1 − x ˉ 2 ) − D 0 σ 1 2 n 1 + σ 2 2 n 2 z=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-D_{0}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} z=n1σ12+n2σ22 (xˉ1xˉ2)D0 ,其中 D 0 D_0 D0为常数值,日常一般设为0

    总体标准差未知的独立双样本检验:t检验 t = ( x ˉ 1 − x ˉ 2 ) − D 0 s 1 2 n 1 + s 2 2 n 2 t=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-D_{0}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}} t=n1s12+n2s22 (xˉ1xˉ2)D0

总体比率与总体均值存在差异

  1. 假设角度(假设单样本检验 p 0 p_0 p0

    左尾检验: H 0 : p ≥ p 0 , H a : p < p 0 \mathrm{H_0}: p \geq p_{0}, \quad \mathrm{H_a}: p < p_{0} H0:pp0,Ha:p<p0

    右尾检验: H 0 : p ≤ p 0 , H a : p > p 0 \mathrm{H_0}: p \leq p_{0}, \quad \mathrm{H_a}: p>p_{0} H0:pp0,Ha:p>p0

    双尾检验: H 0 : p = p 0 , H a : p ≠ p 0 \mathrm{H_0}: p = p_{0}, \quad \mathrm{H_a}: p \neq p_{0} H0:p=p0,Ha:p=p0

  2. 样本比较角度

    单样本检验: p p p p 0 p_0 p0 z = p ˉ − p 0 p 0 ( 1 − p 0 ) n z=\frac{\bar{p}-p_{0}}{\sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}} z=np0(1p0) pˉp0

    独立双样本检验: p 1 p_1 p1 p 2 p_2 p2 z = ( p ˉ 1 − p ˉ 2 ) p ˉ ( 1 − p ˉ ) ( 1 n 1 + 1 n 2 ) z=\frac{\left(\bar{p}_{1}-\bar{p}_{2}\right)}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}} z=pˉ(1pˉ)(n11+n21) (pˉ1pˉ2)

    多样本检验: p 1 p_1 p1 p 2 p_2 p2 p 3 p_3 p3等 : χ 2 = ∑ i = 1 k ( f i − e i ) 2 e i \chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-e_{i}\right)^{2}}{e_{i}} χ2=i=1kei(fiei)2

决策

常用的决策方式有p值法、检验统计量与临界值比较法、置信区间法。日常使用的就是p值法和置信区间法。

回归分析

一元回归

一元回归是回归的基础,在满足基本假设的前提下用最小二乘法估计参数。判决系数 R 2 R^2 R2衡量拟合效果,显著性检验衡量自变量是否影响因变量,当自变量通过显著性检验后,得到一元回归方程就可以进行预测了。通过残差分析辅助验证回归方程的可靠性。

多元回归

多元回归是一元回归的扩展,多元回归的基本假设有所增加

概率基础

随机试验

一次随机试验产生一次基本事件,由于该事件的结果是随机的,又称为随机事件,所有随机事件的组合即为样本空间。

随机变量

将随机事件映射到数字空间,则称为随机变量。在多次试验后,每个X的频率趋于稳定,则将频率记作概率。

概率分布
  1. 离散型

    伯努利分布:

    概率函数: P ( X = x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } P(X=x)=p^{x}(1-p)^{1-x}, x \in\{0,1\} P(X=x)=px(1p)1x,x{0,1}

    数学期望: E ( X ) = p E(X)=p E(X)=p

    方差: D ( X ) = p ( 1 − p ) D(X)=p(1-p) D(X)=p(1p)

    二项分布: X ∼ B ( n , p ) X \sim B(n, p) XB(n,p)

    概率函数: P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk

    数学期望: E ( X ) = n p E(X)=np E(X)=np

    方差: D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1p)

    几何分布: X ∼ G E ( p ) X \sim GE(p) XGE(p)

    概率函数: P ( X = k ) = ( 1 − p ) k − 1 p P(X=k)=(1-p)^{k-1}p P(X=k)=(1p)k1p

    数学期望: E ( X ) = 1 p E(X)=\frac{1}{p} E(X)=p1

    方差: D ( X ) = 1 − p p 2 D(X)=\frac{1-p}{p^2} D(X)=p21p

    泊松分布: X ∼ P ( λ ) X \sim P(\lambda) XP(λ)

    概率函数: P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λkeλ

    数学期望: E ( X ) = λ E(X)=\lambda E(X)=λ

    方差: D ( X ) = λ D(X)=\lambda D(X)=λ

    多项分布: X ∼ P N ( N : p 1 . p 2 , … , p n ) X \sim PN(N:p1.p2,…,pn) XPN(Np1p2pn)

    概率函数: P ( X 1 = x 1 , X 2 = x 2 , . . . , X k = x k ) = n ! x 1 ! x 2 ! . . . x k ! p 1 x 1 p 2 x 2 . . . p k x k P(X_1=x_1, X_2=x_2,..., X_k=x_k)=\frac{n!}{x_1!x_2!...x_k!}p_{1}^{x_1}p_{2}^{x_2}...p_{k}^{x_k} P(X1=x1,X2=x2,...,Xk=xk)=x1!x2!...xk!n!p1x1p2x2...pkxk

    数学期望: E ( X i ) = n p i E(X_i)=np_i E(Xi)=npi

    方差: D ( X i ) = n p i ( 1 − p i ) D(X_i)=np_i(1-p_i) D(Xi)=npi(1pi)

  2. 连续型

    均匀分布: X ∼ U ( a , b ) X \sim U(a, b) XU(a,b)

    概率函数: f ( x ) = { 0 , x < a  或  x > b 1 b − a , a ≤ x ≤ b f(x)=\left\{\begin{array}{l}0, x<a \text { 或 } x>b \\ \frac{1}{b-a}, a \leq x \leq b\end{array}\right. f(x)={0,x<a  x>bba1,axb

    数学期望: E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b

    方差: D ( X ) = ( b − a ) 2 12 D(X)=\frac{(b-a)^2}{12} D(X)=12(ba)2

    指数分布: X ∼ E ( λ ) X \sim E(\lambda) XE(λ)

    概率函数: f ( x ) = λ e − λ x , x ≥ 0 f(x)=\lambda e^{-\lambda x},x \geq 0 f(x)=λeλx,x0

    数学期望: E ( x ) = 1 λ E(x)=\frac{1}{\lambda} E(x)=λ1

    方差: D ( x ) = 1 λ 2 D(x)=\frac{1}{\lambda^2} D(x)=λ21

    伽马分布: X ∼ G a ( α , λ ) X \sim Ga(\alpha,\lambda) XGa(α,λ)

    概率函数: f ( x ) = λ α Γ ( α ) x α − 1 e − λ x , x ≥ 0 f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x \geq 0 f(x)=Γ(α)λαxα1eλx,x0,其中 α > 0 \alpha>0 α>0为形状参数, λ > 0 \lambda>0 λ>0为尺度参数

    数学期望: E ( X ) = α λ E(X)=\frac{\alpha}{\lambda} E(X)=λα

    方差: D ( X ) = α λ 2 D(X)=\frac{\alpha}{\lambda^2} D(X)=λ2α

    高斯分布/正态分布: X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2)

    概率函数: f ( x ) = 1 σ 2 π e − ( x − μ ) 2 / 2 σ 2 f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{-(x-\mu)^{2} / 2 \sigma^{2}} f(x)=σ2π 1e(xμ)2/2σ2

    数学期望: E ( X ) = μ E(X)=\mu E(X)=μ

    方差: D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2

例如正常抛硬币试验,抛硬币的所有结果只能为正反。即样本空间为{ 正面,反面 };如果抛一次硬币(一次随机试验),其结果为正面(随机事件),将该结果记为1。再抛一次硬币,其结果为反面,将该结果记为2。因此该抛硬币的结果设为随机变量X,X的结果可能为1或者2,多次试验后,X的分布服从二项分布,所以X=1的概率为0.5。

中心极限定理

给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本(统计上大于30),重复 m 次,分别求出这m次的样本平均值。 这些样本平均值的分布近似正态分布。

中心极限定理可用于估算抽样标准误: s e = σ n se = \frac{\sigma}{\sqrt{n}} se=n σ

总结

在日常分析工作中,描述统计常用于探索性数据分析(EDA),概率分布常用于模拟数据,假设检验常用于AB试验。

共勉~

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值