【数理统计】数据分析需要掌握的统计学理论基础知识

数据分析需要掌握的统计学理论基础知识

最近在阅读徐麟老师的《数据分析师求职面试指南》,这本书系统性地描述了数据分析师的知识技能框架,非常值得阅读。对于一个数据分析师来说,统计学理论基础知识的重要性不言而喻。虽然这本书通俗易懂,但是只要涉及到数学公式、统计理论,多少会显得有些枯燥无味。这让笔者想起了自己曾经学习概率论、数理统计、离散数学这些课程的“美好时光”!哈哈 ~ 本文是我在读这本书时的一些问题总结。

1. 什么是随机变量?随机变量和随机试验之间有什么关系?

  • 随机试验:在相同的条件下,对某随机现象进行的大量重复观测。(例子:抛硬币、用户是否会使用优惠券)
  • 随机试验的三个特点:结果有限但不可预知、可重复、结果随机。
  • 随机变量:描述随机试验的结果,通常用 X X X 表示。

2. 如何区分不同的随机变量?

根据随机变量的分布来区分不同的随机变量。

3. 什么是样本?样本和随机变量之间有什么关系?

样本:每次随机试验的结果,也称为“观测值”。

随机变量可以被理解为多个样本的均值。(1 次试验,n 个样本;n 次试验,1 个样本)

4. 随机变量是怎么进行分类的?分类的依据是什么?

根据随机试验的所有可能的结果数量是否 可数(注意!不是有限),分为离散型随机变量和连续型随机变量。

5. 常见的离散型随机变量有哪些?它们各自有什么样的分布律?

  • 伯努利分布(0-1分布)
  • 二项分布:n 个重复独立的伯努利分布称为 n 重伯努利分布,也称为二项分布。
  • 泊松分布:适合描述在单位时间(空间)内随机事件的发生次数。 P ( X = k ) = λ k e − λ k ! (其中 λ 表示在单位时间内随机事件平均发生的次数) P(X=k) = \frac{λ^ke^{-λ}}{k!}(其中 λ 表示在单位时间内随机事件平均发生的次数) P(X=k)=k!λkeλ(其中λ表示在单位时间内随机事件平均发生的次数)

6. 常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?

F ( X ) F(X) F(X) :累积分布函数(CDF); f ( X ) f(X) f(X) :概率密度函数(PDF)

  • 均匀分布, f ( x ) = 1 b − a , x ∈ [ a , b ] f(x) = \frac{1}{b-a},x \in [a,b] f(x)=ba1x[a,b]
  • 正态分布, f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}σ}e^{-\frac{{(x-μ)}^2}{2σ^2}} f(x)=2π σ1e2σ2(xμ)2
  • 指数分布,描述泊松过程中事件之间的时间的概率分布,即事件以恒定的平均速率连续且独立发生的过程。 f ( x ) = λ e − λ x , ( x > 0 ) f(x) = λe^{-λx},(x\gt0) f(x)=λeλx(x>0),其中 λ λ λ 对应于泊松分布中在单位时间内发生某事件的次数。

7. 用来描述随机变量的数字特征有哪些?

  • 期望、方差、标准差、分位数
  • 协方差: C o v ( X , Y ) = E ( X − E ( X ) ) ( Y − E ( Y ) ) Cov(X,Y) = E(X-E(X))(Y-E(Y)) Cov(X,Y)=E(XE(X))(YE(Y))
  • 相关系数: ρ x y = C o v ( X , Y ) σ ( X ) σ ( Y ) \rho_{xy}=\frac{Cov(X,Y)}{\sigma(X)\sigma(Y)} ρxy=σ(X)σ(Y)Cov(X,Y)

8. 随机变量 X + Y X+Y X+Y X Y XY XY 的期望与 X X X Y Y Y 期望的关系?

  • 对于任意两个随机变量 X 、 Y X、Y XY ,都有 E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
  • 对于独立变量 X 、 Y X、Y XY ,有 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)

9. 分布期望和中位数大小的关系

分布的期望和中位数的大小关系根据分布的不同而变化。

  • 正态:中位数 = 期望
  • 正偏态:中位数 < 期望
  • 负偏态:中位数 > 期望

10. 简述变量独立与变量不相关的区别

  • 不相关:两者没有线性关系,但不排除有其他关系存在。
  • 独立:二者毫不相干,没有关联。

11. 常见分布的期望和方差是什么?

分布分布律期望方差
伯努利分布 P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p,P(X=0)=1-p P(X=1)=pP(X=0)=1p p p p p ( 1 − p ) p(1-p) p(1p)
二项分布 P ( X = k ) = C n k × p k × ( 1 − p ) n − k P(X=k)=C_n^k×p^k×(1-p)^{n-k} P(X=k)=Cnk×pk×(1p)nk n p np np n p ( 1 − p ) np(1-p) np(1p)
泊松分布 P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{λ^ke^{-λ}}{k!} P(X=k)=k!λkeλ λ λ λ λ λ λ
分布概率密度函数期望方差
均匀分布 f ( x ) = 1 b − a f(x) = \frac{1}{b-a} f(x)=ba1 a + b 2 \frac{a+b}{2} 2a+b ( b − a ) 2 12 \frac{{(b-a)}^2}{12} 12(ba)2
正态分布 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}σ}e^{-\frac{{(x-μ)}^2}{2σ^2}} f(x)=2π σ1e2σ2(xμ)2 μ \mu μ σ 2 \sigma^2 σ2
指数分布 f ( x ) = λ e − λ x , ( x > 0 ) f(x) = λe^{-λx},(x\gt0) f(x)=λeλx(x>0) 1 λ \frac{1}{\lambda} λ1 1 λ 2 \frac{1}{\lambda^2} λ21

12. 正态分布的基本特性是什么?

概率密度函数图形以期望为中心左右对称,期望与中位数大小相等。

13. 3 σ 3σ 3σ方法与正态分布之间存在怎样的关联?

68.27%、95.45%、99.73% 的概率会使样本分别落在 [ μ − σ , μ + σ ] 、 [ μ − 2 σ , μ + 2 σ ] 、 [ μ − 3 σ , μ + 3 σ ] [\mu-\sigma,\mu+\sigma]、[\mu-2\sigma,\mu+2\sigma]、[\mu-3\sigma,\mu+3\sigma] [μσ,μ+σ][μ2σ,μ+2σ][μ3σ,μ+3σ]区间。样本落在 3 σ 3\sigma 3σ 外的概率只有 0.27% ,这部分误差不再属于随机误差,而属于粗大误差,应该将这部分数据予以剔除。

14. 简述常见的大数定律,以及它们之间的区别。

大数定律的核心在于将随机变量 X X X 所对应的随机试验重复多次,随着试验次数的增加, X X X 的均值 X ‾ \overline X X 会愈趋近 E ( X ) E(X) E(X),不同的大数定律会从不同的角度来阐述。

辛钦大数定律:设 X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 是一组独立同分布的随机变量, E ( X ) = μ E(X)=\mu E(X)=μ ,满足: lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ ) = 1 \lim_{n\to\infty}P(|\frac{1}{n}\sum_{i=1}^nX_i-\mu|\lt\epsilon)=1 nlimP(n1i=1nXiμ<ϵ)=1 辛钦大数定律从理论上指出:用算术平均值来近似实际真值是合理的。当 X i X_i Xi 为服从 0 − 1 0-1 01 分布的随机变量时,辛钦大数定律就是伯努利大数定律,故伯努利大数定律是辛钦大数定律的一个特例。

伯努利大数定律:设 μ \mu μ n n n 次独立实验中事件 A A A 发生的次数,且事件 A A A 在每次实验中发生的概率为 p p p,则对于任意正数 ϵ \epsilon ϵ,有 lim ⁡ n → ∞ P ( ∣ μ n n − p ∣ < ϵ ) = 1 \lim_{n\to\infty}P(|\frac{\mu_n}{n}-p|\lt\epsilon)=1 nlimP(nμnp<ϵ)=1 该定律的含义是, n n n 足够大时,事件 A A A 出现的频率将几乎接近于其发生的概率,即频率的稳定性。在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。

切比雪夫大数定律:设 X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 是一组相互独立的随机变量(或者两两不相关),它们分别存在期望 E ( X k ) E(X_k) E(Xk) 和方差 D ( X k ) D(X_k) D(Xk)。若存在常数 C C C 使得: D ( X k ) ≤ C ( k = 1 , 2 , . . . , n ) D(X_k) \le C(k=1,2,...,n) D(Xk)Ck=1,2,...,n,则对于任意小的正数 ϵ \epsilon ϵ,满足: lim ⁡ n → ∞ P ( ∣ 1 n ∑ k = 1 n X k − 1 n ∑ k = 1 n E X k ∣ < ϵ ) = 1 \lim_{n\to\infty}P(|\frac{1}{n}\sum_{k=1}^nX_k-\frac{1}{n}\sum_{k=1}^nEX_k|\lt\epsilon)=1 nlimP(n1k=1nXkn1k=1nEXk<ϵ)=1 将该公式应用于抽样调查,就会有如下结论:随着样本容量 n n n 的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

特别需要注意的是,切比雪夫大数定律并未要求 X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 同分布,相较于伯努利大数定律和辛钦大数定律更具一般性。

因为现实生活中,我们无法进行无穷多次试验,也很难估计出总体的参数。大数定律告诉我们能用频率近似代替概率;能用样本均值近似代替总体均值。很好得解决了现实问题。

定律分布情况期望方差总结
辛钦大数定律相互独立且同分布相同相同估算期望
伯努利大数定律二项分布相同相同频率等于概率
切比雪夫大数定律相互独立或不相关存在存在估算期望

15. 简述中心极限定理

中心极限定理的定义比较抽象,此处用较为通俗的语言对中心极限定理进行阐述。

X 1 , X 2 , . . . , X n , . . . X_1, X_2,...,X_n,... X1,X2,...,Xn,... 是一组独立同分布的随机变量, E ( X i ) = μ , D ( X i ) = σ 2 , ( i = 1 , 2 , 3 , . . . ) E(X_i)=\mu,D(X_i)=\sigma^2,(i=1,2,3,...) E(Xi)=μD(Xi)=σ2(i=1,2,3,...),当 n n n 足够大时,均值 X ‾ = ∑ i = 1 n X i n \overline X = \frac{\sum_{i=1}^nX_i}{n} X=ni=1nXi 的分布接近于正态分布 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) N(μ,nσ2),将 X ‾ \overline X X 进行标准化处理,就可以得到 X ′ = X ‾ − μ σ / n X' = \frac{\overline X - \mu}{\sigma / \sqrt n} X=σ/n Xμ 接近于 N ( 0 , 1 ) N(0,1) N(0,1) 的标准正态分布。

简而言之:如果从一个非正态总体 X X X 中取出一个样本,且样本很大,则样本均值 X ‾ \overline X X 的分布近似为正态分布。

中心极限定理表明:随着实验次数的增加,一组独立同分布的变量的均值可以近似看作服从正态分布,且方差也会随着次数的增加而减小。这就使得对于一组量足够大的样本,无论起原本服从什么分布,最终都能转化为正态分布。

在互联网公司中,针对某一随机试验通常会产生大量的样本,以此为基础,再结合假设检验,就构成了 A B AB AB 测试所需要的理论依据。

16. 在假设检验中,原假设和备择假设常用的划分方法是什么?

通常将原假设记为 H 0 H_0 H0,备择假设记为 H 1 H_1 H1。实际上我们真正需要关心和证明的是备择假设。 H 0 H_0 H0 H 1 H_1 H1 是根据实际需要划分的。

检验统计量:用于假设检验计算的统计量,基于样本检验统计量的值来接受或者拒绝原假设。在原假设成立的情况下,检验统计量服从一个特定的分布;而在备择假设成立的情况下,则不服从该分布。常见的检验统计量有 t t t 统计量、 z z z 统计量等。

17. 简述假设检验的基本思想。

通过证明在原假设成立的前提下,检验统计量出现当前值或者更为极端的值属于“小概率”事件,以此推翻原假设,接受备择假设。

更严谨的表述:通过证明该样本对应的 p-value 小于预先设定的显著性水平 α \alpha α ,以此推翻原假设,接受备择假设。

18. 解释假设检验中的两类错误。

  • 第一类错误: H 0 H_0 H0 真,但拒绝 H 0 H_0 H0
  • 第二类错误: H 0 H_0 H0 假,但接受 H 0 H_0 H0

19. 在假设检验中,如何平衡两类错误?

在假设检验的过程中,通常会预先设定犯第一类错误的上限,也就是定义显著性水平 α \alpha α,而 1 − α 1-\alpha 1α 被称为置信度。

在显著性水平固定的情况下,需要减少犯第二类错误 β \beta β 的概率。 1 − β 1-\beta 1β 对应于规避第二类错误的概率。

通过预先设定的显著性水平和检验效能,可以计算出完成实验所需要的最小样本量。

20. 简述假设检验中的 p-value 、显著性水平、置信度、检验效能。

  • p-value:在原假设成立的前提下,检验统计量出现当前值或者更为极端的值的概率。
  • 显著性水平:在假设检验中,犯第一类错误的上限,用 α \alpha α 表示。
  • 置信度:用 1 − α 1-\alpha 1α 表示置信度。
  • 检验效能:规避第二类错误的概率,用 power 表示。

21. z z z 检验和 t t t 检验之间有什么区别?

z z z 检验:设 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 为一组来自满足正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 总体的样本, x ‾ \overline x x 为样本均值, S 2 S^2 S2 为样本方差, μ 0 , σ 0 \mu_0,\sigma_0 μ0σ0 为已知常数, σ 0 > 0 \sigma_0 \gt 0 σ0>0

已知 σ 2 = σ 0 2 \sigma^2 = \sigma_0^2 σ2=σ02 ,检验 H 0 : μ = μ 0 H_0:\mu = \mu_0 H0μ=μ0 H 1 : μ ≠ μ 0 H_1:\mu \ne \mu_0 H1μ=μ0

此时,在 H 0 H_0 H0 成立的前提下,需要构造检验统计量。该检验要求的显著性水平为 α \alpha α ,显然在 H 0 H_0 H0 成立的前提下, x ‾ = ∑ i = 1 n x i n \overline x=\frac{\sum_{i=1}^nx_i}{n} x=ni=1nxi 服从 N ( μ 0 , σ 2 n ) N(\mu_0,\frac{\sigma^2}{n}) N(μ0,nσ2) 的正态分布。若该检验统计量的值最终落在 [ α 2 , 1 − α 2 ] [\frac{\alpha}{2},1-\frac{\alpha}{2}] [2α,12α] 分位数之外,则表明 p-value 小于 α \alpha α ,可以拒绝原假设,接受备择假设;反之,则无法拒绝原假设。

t t t 检验:相比于 z z z 检验, t t t 检验无需提前获知方差大小,它用样本的方差代替 z z z 检验中已知的方差构造检验统计量 X ′ = X ^ − μ 0 s / n , s = ∑ x = 1 n ( x i − X ‾ ) 2 n − 1 X' = \frac{\hat X - \mu_0}{s / \sqrt n},s=\sqrt{\frac{\sum_{x=1}^n(x_i-\overline X)^2}{n-1}} X=s/n X^μ0s=n1x=1n(xiX)2 服从 n-1 的 t t t 分布。同理,若检验统计量的值落在 [ α 2 , 1 − α 2 ] [\frac{\alpha}{2},1-\frac{\alpha}{2}] [2α,12α] 分位数之外,则可拒绝原假设。

22. 频率派与贝叶斯派的统计思想有什么区别?

在频率派的观点中,样本所属的分布参数 θ \theta θ 虽然是未知的,但是固定的,可以通过样本对 θ \theta θ 进行估计得到 θ ^ \hat\theta θ^

贝叶斯派则认为参数 θ \theta θ 是一个随机变量,不是一个固定值,在样本产生前,会基于经验或者其他方法对 θ \theta θ 预先设定一个分布 π ( θ ) \pi(\theta) π(θ),称为 先验分布。之后会结合所产生的的样本,对 θ \theta θ 的分布进行调整、修正,记为 π ( θ ∣ x 1 , x 2 , x 3 , . . . ) \pi(\theta|x_1,x_2,x_3,...) π(θx1,x2,x3,...),称为 后验分布。在贝叶斯统计思想中,很重要的一部分就是基于已经产生的样本调整分布。

23. 用简洁的话语解释条件概率。

条件概率是指事件 A A A 在事件 B B B 已经发生的条件下发生的概率。条件概率表示为 P ( A ∣ B ) P(A|B) P(AB) P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)

从贝叶斯统计思想来看, B B B 表示产生的样本, A A A 表示参数, P ( A ) P(A) P(A) A A A 的先验概率, P ( A ∣ B ) P(A|B) P(AB) 是在样本 B B B 产生后 A A A 的后验概率值。

24. 解释贝叶斯公式和全概率公式。

全概率公式: P ( B ) = P ( A ) × P ( B ∣ A ) + P ( A ′ ) × P ( B ∣ A ′ ) P(B) = P(A) × P(B | A) + P(A') × P(B | A') P(B)=P(A)×P(BA)+P(A)×P(BA)
贝叶斯定理(全概率公式是贝叶斯定理的分母) P ( A ∣ B ) = P ( A ∩ B ) P ( B ) = P ( A ) × P ( B ∣ A ) P ( A ) × P ( B ∣ A ) + P ( A ′ ) × P ( B ∣ A ′ ) P(A | B) = \frac{P(A∩B)}{P(B)} = \frac {P(A) × P(B | A)}{P(A) × P(B | A) + P(A') × P(B | A')} P(AB)=P(B)P(AB)=P(A)×P(BA)+P(A)×P(BA)P(A)×P(BA)

25. 什么是三门问题?用贝叶斯公式进行解释。

三门问题源自美国的一档电视节目,讲的是,在三扇门当中有一扇门里是车,其他两扇门里是羊,目标是选中后面是车的那扇门。参与者首先从三扇门中选择一扇门,之后主持人会根据参与者的选择打开一扇门。如果参与者选择了一扇有羊的门,主持人必须打开另一扇有羊的门,如果参与者选择了一扇有车的门,主持人随机在另外两扇有羊的门中打开一扇门。

此时一个关键的问题是,主持人打开门后,参与者选择是否要换成另一扇未被打开的门,并且计算出参与者选择换或者不换是车的概率。
根据贝叶斯统计理论,应该选择换门(具体计算不在此处展开,感兴趣可以自己动手试一试)。实际的结果在逻辑上并不自相矛盾,但十分违反直觉,选择换那么最终是车的概率为 2 3 \frac{2}{3} 32,不换则为 1 3 \frac{1}{3} 31 。这是因为已经有了打开一扇有羊的门的样本。

这一问题的关键在于主持人,因为他总会选择一扇后面是羊的门。游戏的调查数据显示,那些改选的参赛选手赢的几率是那些没有改选的人的两倍,这证实了莎凡特在其第三篇专栏中的解释:“当你从三扇门中选了门 1 后,这扇门后面有奖的几率是 1 3 \frac{1}{3} 31,另两扇门是 2 3 \frac{2}{3} 32。但接下来主持人给了你一个线索。如果车在门 2 后,主持人将会打开门 3;如果车在门 3 后,他会打开门 2。所以如果你改选的话,只要车在门 2 或门 3 后你就会赢,两种情况你都会赢!但是如果你不改选,只有当车在门 1 后你才会赢。"

总结一句话,概率存在于被给予的条件下,概率不能寄托在实际的物体上。


当然,这里只是非常基础的一些理论知识。如果希望对此有更加深入的理解,需要进一步的学习。水滴石穿非一日之功,与君共勉!

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

G皮T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值