数据分析需要掌握的统计学理论基础知识
- 1. 什么是随机变量?随机变量和随机试验之间有什么关系?
- 2. 如何区分不同的随机变量?
- 3. 什么是样本?样本和随机变量之间有什么关系?
- 4. 随机变量是怎么进行分类的?分类的依据是什么?
- 5. 常见的离散型随机变量有哪些?它们各自有什么样的分布律?
- 6. 常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?
- 7. 用来描述随机变量的数字特征有哪些?
- 8. 随机变量 X + Y X+Y X+Y 、 X Y XY XY 的期望与 X X X、 Y Y Y 期望的关系?
- 9. 分布期望和中位数大小的关系
- 10. 简述变量独立与变量不相关的区别
- 11. 常见分布的期望和方差是什么?
- 12. 正态分布的基本特性是什么?
- 13. 3 σ 3σ 3σ方法与正态分布之间存在怎样的关联?
- 14. 简述常见的大数定律,以及它们之间的区别。
- 15. 简述中心极限定理
- 16. 在假设检验中,原假设和备择假设常用的划分方法是什么?
- 17. 简述假设检验的基本思想。
- 18. 解释假设检验中的两类错误。
- 19. 在假设检验中,如何平衡两类错误?
- 20. 简述假设检验中的 p-value 、显著性水平、置信度、检验效能。
- 21. z z z 检验和 t t t 检验之间有什么区别?
- 22. 频率派与贝叶斯派的统计思想有什么区别?
- 23. 用简洁的话语解释条件概率。
- 24. 解释贝叶斯公式和全概率公式。
- 25. 什么是三门问题?用贝叶斯公式进行解释。
最近在阅读徐麟老师的《数据分析师求职面试指南》,这本书系统性地描述了数据分析师的知识技能框架,非常值得阅读。对于一个数据分析师来说,统计学理论基础知识的重要性不言而喻。虽然这本书通俗易懂,但是只要涉及到数学公式、统计理论,多少会显得有些枯燥无味。这让笔者想起了自己曾经学习概率论、数理统计、离散数学这些课程的“美好时光”!哈哈 ~ 本文是我在读这本书时的一些问题总结。
1. 什么是随机变量?随机变量和随机试验之间有什么关系?
- 随机试验:在相同的条件下,对某随机现象进行的大量重复观测。(例子:抛硬币、用户是否会使用优惠券)
- 随机试验的三个特点:结果有限但不可预知、可重复、结果随机。
- 随机变量:描述随机试验的结果,通常用 X X X 表示。
2. 如何区分不同的随机变量?
根据随机变量的分布来区分不同的随机变量。
3. 什么是样本?样本和随机变量之间有什么关系?
样本:每次随机试验的结果,也称为“观测值”。
随机变量可以被理解为多个样本的均值。(1 次试验,n 个样本;n 次试验,1 个样本)
4. 随机变量是怎么进行分类的?分类的依据是什么?
根据随机试验的所有可能的结果数量是否 可数(注意!不是有限),分为离散型随机变量和连续型随机变量。
5. 常见的离散型随机变量有哪些?它们各自有什么样的分布律?
- 伯努利分布(0-1分布)
- 二项分布:n 个重复独立的伯努利分布称为 n 重伯努利分布,也称为二项分布。
- 泊松分布:适合描述在单位时间(空间)内随机事件的发生次数。 P ( X = k ) = λ k e − λ k ! (其中 λ 表示在单位时间内随机事件平均发生的次数) P(X=k) = \frac{λ^ke^{-λ}}{k!}(其中 λ 表示在单位时间内随机事件平均发生的次数) P(X=k)=k!λke−λ(其中λ表示在单位时间内随机事件平均发生的次数)
6. 常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?
F ( X ) F(X) F(X) :累积分布函数(CDF); f ( X ) f(X) f(X) :概率密度函数(PDF)
- 均匀分布, f ( x ) = 1 b − a , x ∈ [ a , b ] f(x) = \frac{1}{b-a},x \in [a,b] f(x)=b−a1,x∈[a,b]
- 正态分布, f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}σ}e^{-\frac{{(x-μ)}^2}{2σ^2}} f(x)=2πσ1e−2σ2(x−μ)2
- 指数分布,描述泊松过程中事件之间的时间的概率分布,即事件以恒定的平均速率连续且独立发生的过程。 f ( x ) = λ e − λ x , ( x > 0 ) f(x) = λe^{-λx},(x\gt0) f(x)=λe−λx,(x>0),其中 λ λ λ 对应于泊松分布中在单位时间内发生某事件的次数。
7. 用来描述随机变量的数字特征有哪些?
- 期望、方差、标准差、分位数
- 协方差: C o v ( X , Y ) = E ( X − E ( X ) ) ( Y − E ( Y ) ) Cov(X,Y) = E(X-E(X))(Y-E(Y)) Cov(X,Y)=E(X−E(X))(Y−E(Y))
- 相关系数: ρ x y = C o v ( X , Y ) σ ( X ) σ ( Y ) \rho_{xy}=\frac{Cov(X,Y)}{\sigma(X)\sigma(Y)} ρxy=σ(X)σ(Y)Cov(X,Y)
8. 随机变量 X + Y X+Y X+Y 、 X Y XY XY 的期望与 X X X、 Y Y Y 期望的关系?
- 对于任意两个随机变量 X 、 Y X、Y X、Y ,都有 E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
- 对于独立变量 X 、 Y X、Y X、Y ,有 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
9. 分布期望和中位数大小的关系
分布的期望和中位数的大小关系根据分布的不同而变化。
- 正态:中位数 = 期望
- 正偏态:中位数 < 期望
- 负偏态:中位数 > 期望
10. 简述变量独立与变量不相关的区别
- 不相关:两者没有线性关系,但不排除有其他关系存在。
- 独立:二者毫不相干,没有关联。
11. 常见分布的期望和方差是什么?
分布 | 分布律 | 期望 | 方差 |
---|---|---|---|
伯努利分布 | P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p,P(X=0)=1-p P(X=1)=p,P(X=0)=1−p | p p p | p ( 1 − p ) p(1-p) p(1−p) |
二项分布 | P ( X = k ) = C n k × p k × ( 1 − p ) n − k P(X=k)=C_n^k×p^k×(1-p)^{n-k} P(X=k)=Cnk×pk×(1−p)n−k | n p np np | n p ( 1 − p ) np(1-p) np(1−p) |
泊松分布 | P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{λ^ke^{-λ}}{k!} P(X=k)=k!λke−λ | λ λ λ | λ λ λ |
分布 | 概率密度函数 | 期望 | 方差 |
---|---|---|---|
均匀分布 | f ( x ) = 1 b − a f(x) = \frac{1}{b-a} f(x)=b−a1 | a + b 2 \frac{a+b}{2} 2a+b | ( b − a ) 2 12 \frac{{(b-a)}^2}{12} 12(b−a)2 |
正态分布 | f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}σ}e^{-\frac{{(x-μ)}^2}{2σ^2}} f(x)=2πσ1e−2σ2(x−μ)2 | μ \mu μ | σ 2 \sigma^2 σ2 |
指数分布 | f ( x ) = λ e − λ x , ( x > 0 ) f(x) = λe^{-λx},(x\gt0) f(x)=λe−λx,(x>0) | 1 λ \frac{1}{\lambda} λ1 | 1 λ 2 \frac{1}{\lambda^2} λ21 |
12. 正态分布的基本特性是什么?
概率密度函数图形以期望为中心左右对称,期望与中位数大小相等。
13. 3 σ 3σ 3σ方法与正态分布之间存在怎样的关联?
68.27%、95.45%、99.73% 的概率会使样本分别落在 [ μ − σ , μ + σ ] 、 [ μ − 2 σ , μ + 2 σ ] 、 [ μ − 3 σ , μ + 3 σ ] [\mu-\sigma,\mu+\sigma]、[\mu-2\sigma,\mu+2\sigma]、[\mu-3\sigma,\mu+3\sigma] [μ−σ,μ+σ]、[μ−2σ,μ+2σ]、[μ−3σ,μ+3σ]区间。样本落在 3 σ 3\sigma 3σ 外的概率只有 0.27% ,这部分误差不再属于随机误差,而属于粗大误差,应该将这部分数据予以剔除。
14. 简述常见的大数定律,以及它们之间的区别。
大数定律的核心在于将随机变量 X X X 所对应的随机试验重复多次,随着试验次数的增加, X X X 的均值 X ‾ \overline X X 会愈趋近 E ( X ) E(X) E(X),不同的大数定律会从不同的角度来阐述。
辛钦大数定律:设 X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 是一组独立同分布的随机变量, E ( X ) = μ E(X)=\mu E(X)=μ ,满足: lim n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ ) = 1 \lim_{n\to\infty}P(|\frac{1}{n}\sum_{i=1}^nX_i-\mu|\lt\epsilon)=1 n→∞limP(∣n1i=1∑nXi−μ∣<ϵ)=1 辛钦大数定律从理论上指出:用算术平均值来近似实际真值是合理的。当 X i X_i Xi 为服从 0 − 1 0-1 0−1 分布的随机变量时,辛钦大数定律就是伯努利大数定律,故伯努利大数定律是辛钦大数定律的一个特例。
伯努利大数定律:设 μ \mu μ 是 n n n 次独立实验中事件 A A A 发生的次数,且事件 A A A 在每次实验中发生的概率为 p p p,则对于任意正数 ϵ \epsilon ϵ,有 lim n → ∞ P ( ∣ μ n n − p ∣ < ϵ ) = 1 \lim_{n\to\infty}P(|\frac{\mu_n}{n}-p|\lt\epsilon)=1 n→∞limP(∣nμn−p∣<ϵ)=1 该定律的含义是,当 n n n 足够大时,事件 A A A 出现的频率将几乎接近于其发生的概率,即频率的稳定性。在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。
切比雪夫大数定律:设 X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 是一组相互独立的随机变量(或者两两不相关),它们分别存在期望 E ( X k ) E(X_k) E(Xk) 和方差 D ( X k ) D(X_k) D(Xk)。若存在常数 C C C 使得: D ( X k ) ≤ C ( k = 1 , 2 , . . . , n ) D(X_k) \le C(k=1,2,...,n) D(Xk)≤C(k=1,2,...,n),则对于任意小的正数 ϵ \epsilon ϵ,满足: lim n → ∞ P ( ∣ 1 n ∑ k = 1 n X k − 1 n ∑ k = 1 n E X k ∣ < ϵ ) = 1 \lim_{n\to\infty}P(|\frac{1}{n}\sum_{k=1}^nX_k-\frac{1}{n}\sum_{k=1}^nEX_k|\lt\epsilon)=1 n→∞limP(∣n1k=1∑nXk−n1k=1∑nEXk∣<ϵ)=1 将该公式应用于抽样调查,就会有如下结论:随着样本容量 n n n 的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
特别需要注意的是,切比雪夫大数定律并未要求 X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 同分布,相较于伯努利大数定律和辛钦大数定律更具一般性。
因为现实生活中,我们无法进行无穷多次试验,也很难估计出总体的参数。大数定律告诉我们能用频率近似代替概率;能用样本均值近似代替总体均值。很好得解决了现实问题。
定律 | 分布情况 | 期望 | 方差 | 总结 |
---|---|---|---|---|
辛钦大数定律 | 相互独立且同分布 | 相同 | 相同 | 估算期望 |
伯努利大数定律 | 二项分布 | 相同 | 相同 | 频率等于概率 |
切比雪夫大数定律 | 相互独立或不相关 | 存在 | 存在 | 估算期望 |
15. 简述中心极限定理
中心极限定理的定义比较抽象,此处用较为通俗的语言对中心极限定理进行阐述。
设 X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 是一组独立同分布的随机变量, E ( X i ) = μ , D ( X i ) = σ 2 , ( i = 1 , 2 , 3 , . . . ) E(X_i)=\mu,D(X_i)=\sigma^2,(i=1,2,3,...) E(Xi)=μ,D(Xi)=σ2,(i=1,2,3,...),当 n n n 足够大时,均值 X ‾ = ∑ i = 1 n X i n \overline X = \frac{\sum_{i=1}^nX_i}{n} X=n∑i=1nXi 的分布接近于正态分布 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) N(μ,nσ2),将 X ‾ \overline X X 进行标准化处理,就可以得到 X ′ = X ‾ − μ σ / n X' = \frac{\overline X - \mu}{\sigma / \sqrt n} X′=σ/nX−μ 接近于 N ( 0 , 1 ) N(0,1) N(0,1) 的标准正态分布。
简而言之:如果从一个非正态总体 X X X 中取出一个样本,且样本很大,则样本均值 X ‾ \overline X X 的分布近似为正态分布。
中心极限定理表明:随着实验次数的增加,一组独立同分布的变量的均值可以近似看作服从正态分布,且方差也会随着次数的增加而减小。这就使得对于一组量足够大的样本,无论起原本服从什么分布,最终都能转化为正态分布。
在互联网公司中,针对某一随机试验通常会产生大量的样本,以此为基础,再结合假设检验,就构成了 A B AB AB 测试所需要的理论依据。
16. 在假设检验中,原假设和备择假设常用的划分方法是什么?
通常将原假设记为 H 0 H_0 H0,备择假设记为 H 1 H_1 H1。实际上我们真正需要关心和证明的是备择假设。 H 0 H_0 H0 和 H 1 H_1 H1 是根据实际需要划分的。
检验统计量:用于假设检验计算的统计量,基于样本检验统计量的值来接受或者拒绝原假设。在原假设成立的情况下,检验统计量服从一个特定的分布;而在备择假设成立的情况下,则不服从该分布。常见的检验统计量有 t t t 统计量、 z z z 统计量等。
17. 简述假设检验的基本思想。
通过证明在原假设成立的前提下,检验统计量出现当前值或者更为极端的值属于“小概率”事件,以此推翻原假设,接受备择假设。
更严谨的表述:通过证明该样本对应的 p-value 小于预先设定的显著性水平 α \alpha α ,以此推翻原假设,接受备择假设。
18. 解释假设检验中的两类错误。
- 第一类错误: H 0 H_0 H0 真,但拒绝 H 0 H_0 H0
- 第二类错误: H 0 H_0 H0 假,但接受 H 0 H_0 H0
19. 在假设检验中,如何平衡两类错误?
在假设检验的过程中,通常会预先设定犯第一类错误的上限,也就是定义显著性水平 α \alpha α,而 1 − α 1-\alpha 1−α 被称为置信度。
在显著性水平固定的情况下,需要减少犯第二类错误 β \beta β 的概率。 1 − β 1-\beta 1−β 对应于规避第二类错误的概率。
通过预先设定的显著性水平和检验效能,可以计算出完成实验所需要的最小样本量。
20. 简述假设检验中的 p-value 、显著性水平、置信度、检验效能。
- p-value:在原假设成立的前提下,检验统计量出现当前值或者更为极端的值的概率。
- 显著性水平:在假设检验中,犯第一类错误的上限,用 α \alpha α 表示。
- 置信度:用 1 − α 1-\alpha 1−α 表示置信度。
- 检验效能:规避第二类错误的概率,用 power 表示。
21. z z z 检验和 t t t 检验之间有什么区别?
z z z 检验:设 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 为一组来自满足正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 总体的样本, x ‾ \overline x x 为样本均值, S 2 S^2 S2 为样本方差, μ 0 , σ 0 \mu_0,\sigma_0 μ0,σ0 为已知常数, σ 0 > 0 \sigma_0 \gt 0 σ0>0。
已知 σ 2 = σ 0 2 \sigma^2 = \sigma_0^2 σ2=σ02 ,检验 H 0 : μ = μ 0 H_0:\mu = \mu_0 H0:μ=μ0; H 1 : μ ≠ μ 0 H_1:\mu \ne \mu_0 H1:μ=μ0 。
此时,在 H 0 H_0 H0 成立的前提下,需要构造检验统计量。该检验要求的显著性水平为 α \alpha α ,显然在 H 0 H_0 H0 成立的前提下, x ‾ = ∑ i = 1 n x i n \overline x=\frac{\sum_{i=1}^nx_i}{n} x=n∑i=1nxi 服从 N ( μ 0 , σ 2 n ) N(\mu_0,\frac{\sigma^2}{n}) N(μ0,nσ2) 的正态分布。若该检验统计量的值最终落在 [ α 2 , 1 − α 2 ] [\frac{\alpha}{2},1-\frac{\alpha}{2}] [2α,1−2α] 分位数之外,则表明 p-value 小于 α \alpha α ,可以拒绝原假设,接受备择假设;反之,则无法拒绝原假设。
t t t 检验:相比于 z z z 检验, t t t 检验无需提前获知方差大小,它用样本的方差代替 z z z 检验中已知的方差构造检验统计量 X ′ = X ^ − μ 0 s / n , s = ∑ x = 1 n ( x i − X ‾ ) 2 n − 1 X' = \frac{\hat X - \mu_0}{s / \sqrt n},s=\sqrt{\frac{\sum_{x=1}^n(x_i-\overline X)^2}{n-1}} X′=s/nX^−μ0,s=n−1∑x=1n(xi−X)2 服从 n-1 的 t t t 分布。同理,若检验统计量的值落在 [ α 2 , 1 − α 2 ] [\frac{\alpha}{2},1-\frac{\alpha}{2}] [2α,1−2α] 分位数之外,则可拒绝原假设。
22. 频率派与贝叶斯派的统计思想有什么区别?
在频率派的观点中,样本所属的分布参数 θ \theta θ 虽然是未知的,但是固定的,可以通过样本对 θ \theta θ 进行估计得到 θ ^ \hat\theta θ^。
贝叶斯派则认为参数 θ \theta θ 是一个随机变量,不是一个固定值,在样本产生前,会基于经验或者其他方法对 θ \theta θ 预先设定一个分布 π ( θ ) \pi(\theta) π(θ),称为 先验分布。之后会结合所产生的的样本,对 θ \theta θ 的分布进行调整、修正,记为 π ( θ ∣ x 1 , x 2 , x 3 , . . . ) \pi(\theta|x_1,x_2,x_3,...) π(θ∣x1,x2,x3,...),称为 后验分布。在贝叶斯统计思想中,很重要的一部分就是基于已经产生的样本调整分布。
23. 用简洁的话语解释条件概率。
条件概率是指事件 A A A 在事件 B B B 已经发生的条件下发生的概率。条件概率表示为 P ( A ∣ B ) P(A|B) P(A∣B)。 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)。
从贝叶斯统计思想来看, B B B 表示产生的样本, A A A 表示参数, P ( A ) P(A) P(A) 是 A A A 的先验概率, P ( A ∣ B ) P(A|B) P(A∣B) 是在样本 B B B 产生后 A A A 的后验概率值。
24. 解释贝叶斯公式和全概率公式。
全概率公式:
P
(
B
)
=
P
(
A
)
×
P
(
B
∣
A
)
+
P
(
A
′
)
×
P
(
B
∣
A
′
)
P(B) = P(A) × P(B | A) + P(A') × P(B | A')
P(B)=P(A)×P(B∣A)+P(A′)×P(B∣A′)
贝叶斯定理(全概率公式是贝叶斯定理的分母)
P
(
A
∣
B
)
=
P
(
A
∩
B
)
P
(
B
)
=
P
(
A
)
×
P
(
B
∣
A
)
P
(
A
)
×
P
(
B
∣
A
)
+
P
(
A
′
)
×
P
(
B
∣
A
′
)
P(A | B) = \frac{P(A∩B)}{P(B)} = \frac {P(A) × P(B | A)}{P(A) × P(B | A) + P(A') × P(B | A')}
P(A∣B)=P(B)P(A∩B)=P(A)×P(B∣A)+P(A′)×P(B∣A′)P(A)×P(B∣A)
25. 什么是三门问题?用贝叶斯公式进行解释。
三门问题源自美国的一档电视节目,讲的是,在三扇门当中有一扇门里是车,其他两扇门里是羊,目标是选中后面是车的那扇门。参与者首先从三扇门中选择一扇门,之后主持人会根据参与者的选择打开一扇门。如果参与者选择了一扇有羊的门,主持人必须打开另一扇有羊的门,如果参与者选择了一扇有车的门,主持人随机在另外两扇有羊的门中打开一扇门。
此时一个关键的问题是,主持人打开门后,参与者选择是否要换成另一扇未被打开的门,并且计算出参与者选择换或者不换是车的概率。
根据贝叶斯统计理论,应该选择换门(具体计算不在此处展开,感兴趣可以自己动手试一试)。实际的结果在逻辑上并不自相矛盾,但十分违反直觉,选择换那么最终是车的概率为
2
3
\frac{2}{3}
32,不换则为
1
3
\frac{1}{3}
31 。这是因为已经有了打开一扇有羊的门的样本。
这一问题的关键在于主持人,因为他总会选择一扇后面是羊的门。游戏的调查数据显示,那些改选的参赛选手赢的几率是那些没有改选的人的两倍,这证实了莎凡特在其第三篇专栏中的解释:“当你从三扇门中选了门 1 后,这扇门后面有奖的几率是 1 3 \frac{1}{3} 31,另两扇门是 2 3 \frac{2}{3} 32。但接下来主持人给了你一个线索。如果车在门 2 后,主持人将会打开门 3;如果车在门 3 后,他会打开门 2。所以如果你改选的话,只要车在门 2 或门 3 后你就会赢,两种情况你都会赢!但是如果你不改选,只有当车在门 1 后你才会赢。"
总结一句话,概率存在于被给予的条件下,概率不能寄托在实际的物体上。
当然,这里只是非常基础的一些理论知识。如果希望对此有更加深入的理解,需要进一步的学习。水滴石穿非一日之功,与君共勉!