【数理统计】数据分析需要掌握的统计学理论基础知识

G皮T

已于 2023-11-02 20:09:35 修改

阅读量818

点赞数 4

分类专栏： # 数理统计 / 机器学习文章标签：数据分析概率论数理统计机器学习数据分析师随机变量统计学

于 2022-05-10 11:47:30 首次发布

本文链接：https://blog.csdn.net/be_racle/article/details/124684275

版权

数理统计 / 机器学习专栏收录该内容

5 篇文章 23 订阅

订阅专栏

数据分析需要掌握的统计学理论基础知识

1. 什么是随机变量？随机变量和随机试验之间有什么关系？
2. 如何区分不同的随机变量？
3. 什么是样本？样本和随机变量之间有什么关系？
4. 随机变量是怎么进行分类的？分类的依据是什么？
5. 常见的离散型随机变量有哪些？它们各自有什么样的分布律？
6. 常见的连续型随机变量有哪些？它们各自有什么样的概率密度函数？
7. 用来描述随机变量的数字特征有哪些？
8. 随机变量 $X + Y$ 、 $X Y$ 的期望与 $X$ 、 $Y$ 期望的关系？
9. 分布期望和中位数大小的关系
10. 简述变量独立与变量不相关的区别
11. 常见分布的期望和方差是什么？
12. 正态分布的基本特性是什么？
13. $3 σ$ 方法与正态分布之间存在怎样的关联？
14. 简述常见的大数定律，以及它们之间的区别。
15. 简述中心极限定理
16. 在假设检验中，原假设和备择假设常用的划分方法是什么？
17. 简述假设检验的基本思想。
18. 解释假设检验中的两类错误。
19. 在假设检验中，如何平衡两类错误？
20. 简述假设检验中的 p-value 、显著性水平、置信度、检验效能。
21. $z$ 检验和 $t$ 检验之间有什么区别？
22. 频率派与贝叶斯派的统计思想有什么区别？
23. 用简洁的话语解释条件概率。
24. 解释贝叶斯公式和全概率公式。
25. 什么是三门问题？用贝叶斯公式进行解释。

最近在阅读徐麟老师的《数据分析师求职面试指南》，这本书系统性地描述了数据分析师的知识技能框架，非常值得阅读。对于一个数据分析师来说，统计学理论基础知识的重要性不言而喻。虽然这本书通俗易懂，但是只要涉及到数学公式、统计理论，多少会显得有些枯燥无味。这让笔者想起了自己曾经学习概率论、数理统计、离散数学这些课程的“美好时光”！哈哈 ~ 本文是我在读这本书时的一些问题总结。

1. 什么是随机变量？随机变量和随机试验之间有什么关系？

随机试验：在相同的条件下，对某随机现象进行的大量重复观测。（例子：抛硬币、用户是否会使用优惠券）
随机试验的三个特点：结果有限但不可预知、可重复、结果随机。
随机变量：描述随机试验的结果，通常用 $X$ 表示。

2. 如何区分不同的随机变量？

根据随机变量的分布来区分不同的随机变量。

3. 什么是样本？样本和随机变量之间有什么关系？

样本：每次随机试验的结果，也称为“观测值”。

随机变量可以被理解为多个样本的均值。（1 次试验，n 个样本；n 次试验，1 个样本）

4. 随机变量是怎么进行分类的？分类的依据是什么？

根据随机试验的所有可能的结果数量是否可数（注意！不是有限），分为离散型随机变量和连续型随机变量。

5. 常见的离散型随机变量有哪些？它们各自有什么样的分布律？

伯努利分布（0-1分布）
二项分布：n 个重复独立的伯努利分布称为 n 重伯努利分布，也称为二项分布。
泊松分布：适合描述在单位时间（空间）内随机事件的发生次数。 $\frac{λ^ke^{-λ}}{k!}（其中 λ 表示在单位时间内随机事件平均发生的次数）$

6. 常见的连续型随机变量有哪些？它们各自有什么样的概率密度函数？

$F (X)$ ：累积分布函数（CDF）； $f (X)$ ：概率密度函数（PDF）

均匀分布， $\frac{1}{b-a}，x \in [a,b]$
正态分布， $\frac{1}{\sqrt{2\pi}σ}e^{-\frac{{(x-μ)}^2}{2σ^2}}$
指数分布，描述泊松过程中事件之间的时间的概率分布，即事件以恒定的平均速率连续且独立发生的过程。 $λe^{-λx}，(x\gt0)$ ，其中 $λ$ 对应于泊松分布中在单位时间内发生某事件的次数。

7. 用来描述随机变量的数字特征有哪些？

期望、方差、标准差、分位数
协方差： $C o v (X, Y) = E (X - E (X)) (Y - E (Y))$
相关系数： $\rho_{xy}=\frac{Cov(X,Y)}{\sigma(X)\sigma(Y)}$

8. 随机变量 $X + Y$ 、 $X Y$ 的期望与 $X$ 、 $Y$ 期望的关系？

对于任意两个随机变量 $X 、 Y$ ，都有 $E (X + Y) = E (X) + E (Y)$
对于独立变量 $X 、 Y$ ，有 $E (X Y) = E (X) E (Y)$

9. 分布期望和中位数大小的关系

分布的期望和中位数的大小关系根据分布的不同而变化。

正态：中位数 = 期望
正偏态：中位数 < 期望
负偏态：中位数 > 期望

10. 简述变量独立与变量不相关的区别

不相关：两者没有线性关系，但不排除有其他关系存在。
独立：二者毫不相干，没有关联。

11. 常见分布的期望和方差是什么？

分布	分布律	期望	方差
伯努利分布	$P (X = 1) = p ， P (X = 0) = 1 - p$	$p$	$p (1 - p)$
二项分布	$P(X=k)=C_n^k×p^k×(1-p)^{n-k}$	$n p$	$n p (1 - p)$
泊松分布	$\frac{λ^ke^{-λ}}{k!}$	$λ$	$λ$

分布	概率密度函数	期望	方差
均匀分布	$\frac{1}{b-a}$	$\frac{a+b}{2}$	$\frac{{(b-a)}^2}{12}$
正态分布	$\frac{1}{\sqrt{2\pi}σ}e^{-\frac{{(x-μ)}^2}{2σ^2}}$	$\mu$	$\sigma^2$
指数分布	$λe^{-λx}，(x\gt0)$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$

12. 正态分布的基本特性是什么？

概率密度函数图形以期望为中心左右对称，期望与中位数大小相等。

13. $3 σ$ 方法与正态分布之间存在怎样的关联？

68.27%、95.45%、99.73% 的概率会使样本分别落在 $[\mu-\sigma,\mu+\sigma]、[\mu-2\sigma,\mu+2\sigma]、[\mu-3\sigma,\mu+3\sigma]$ 区间。样本落在 $3\sigma$ 外的概率只有 0.27% ，这部分误差不再属于随机误差，而属于粗大误差，应该将这部分数据予以剔除。

14. 简述常见的大数定律，以及它们之间的区别。

大数定律的核心在于将随机变量 $X$ 所对应的随机试验重复多次，随着试验次数的增加， $X$ 的均值 $\overline X$ 会愈趋近 $E (X)$ ，不同的大数定律会从不同的角度来阐述。

辛钦大数定律：设 $X_1, X_2,...,X_n,...$ 是一组独立同分布的随机变量， $E(X)=\mu$ ，满足： $\lim_{n\to\infty}P(|\frac{1}{n}\sum_{i=1}^nX_i-\mu|\lt\epsilon)=1$ 辛钦大数定律从理论上指出：用算术平均值来近似实际真值是合理的。当 $X_i$ 为服从 $0 - 1$ 分布的随机变量时，辛钦大数定律就是伯努利大数定律，故伯努利大数定律是辛钦大数定律的一个特例。

伯努利大数定律：设 $\mu$ 是 $n$ 次独立实验中事件 $A$ 发生的次数，且事件 $A$ 在每次实验中发生的概率为 $p$ ，则对于任意正数 $\epsilon$ ，有 $\lim_{n\to\infty}P(|\frac{\mu_n}{n}-p|\lt\epsilon)=1$ 该定律的含义是，当 $n$ 足够大时，事件 $A$ 出现的频率将几乎接近于其发生的概率，即频率的稳定性。在抽样调查中，用样本成数去估计总体成数，其理论依据即在于此。

切比雪夫大数定律：设 $X_1, X_2,...,X_n,...$ 是一组相互独立的随机变量（或者两两不相关），它们分别存在期望 $E(X_k)$ 和方差 $D(X_k)$ 。若存在常数 $C$ 使得： $D(X_k) \le C（k=1,2,...,n）$ ，则对于任意小的正数 $\epsilon$ ，满足： $\lim_{n\to\infty}P(|\frac{1}{n}\sum_{k=1}^nX_k-\frac{1}{n}\sum_{k=1}^nEX_k|\lt\epsilon)=1$ 将该公式应用于抽样调查，就会有如下结论：随着样本容量 $n$ 的增加，样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

特别需要注意的是，切比雪夫大数定律并未要求 $X_1, X_2,...,X_n,...$ 同分布，相较于伯努利大数定律和辛钦大数定律更具一般性。

因为现实生活中，我们无法进行无穷多次试验，也很难估计出总体的参数。大数定律告诉我们能用频率近似代替概率；能用样本均值近似代替总体均值。很好得解决了现实问题。

定律	分布情况	期望	方差	总结
辛钦大数定律	相互独立且同分布	相同	相同	估算期望
伯努利大数定律	二项分布	相同	相同	频率等于概率
切比雪夫大数定律	相互独立或不相关	存在	存在	估算期望

15. 简述中心极限定理

中心极限定理的定义比较抽象，此处用较为通俗的语言对中心极限定理进行阐述。

设 $X_1, X_2,...,X_n,...$ 是一组独立同分布的随机变量， $E(X_i)=\mu，D(X_i)=\sigma^2，(i=1,2,3,...)$ ，当 $n$ 足够大时，均值 $\overline X = \frac{\sum_{i=1}^nX_i}{n}$ 的分布接近于正态分布 $N(\mu,\frac{\sigma^2}{n})$ ，将 $\overline X$ 进行标准化处理，就可以得到 $\frac{\overline X - \mu}{\sigma / \sqrt n}$ 接近于 $N (0, 1)$ 的标准正态分布。

简而言之：如果从一个非正态总体 $X$ 中取出一个样本，且样本很大，则样本均值 $\overline X$ 的分布近似为正态分布。

中心极限定理表明：随着实验次数的增加，一组独立同分布的变量的均值可以近似看作服从正态分布，且方差也会随着次数的增加而减小。这就使得对于一组量足够大的样本，无论起原本服从什么分布，最终都能转化为正态分布。

在互联网公司中，针对某一随机试验通常会产生大量的样本，以此为基础，再结合假设检验，就构成了 $A B$ 测试所需要的理论依据。

16. 在假设检验中，原假设和备择假设常用的划分方法是什么？

通常将原假设记为 $H_0$ ，备择假设记为 $H_1$ 。实际上我们真正需要关心和证明的是备择假设。 $H_0$ 和 $H_1$ 是根据实际需要划分的。

检验统计量：用于假设检验计算的统计量，基于样本检验统计量的值来接受或者拒绝原假设。在原假设成立的情况下，检验统计量服从一个特定的分布；而在备择假设成立的情况下，则不服从该分布。常见的检验统计量有 $t$ 统计量、 $z$ 统计量等。

17. 简述假设检验的基本思想。

通过证明在原假设成立的前提下，检验统计量出现当前值或者更为极端的值属于“小概率”事件，以此推翻原假设，接受备择假设。

更严谨的表述：通过证明该样本对应的 p-value 小于预先设定的显著性水平 $\alpha$ ，以此推翻原假设，接受备择假设。

18. 解释假设检验中的两类错误。

第一类错误： $H_0$ 真，但拒绝 $H_0$
第二类错误： $H_0$ 假，但接受 $H_0$

19. 在假设检验中，如何平衡两类错误？

在假设检验的过程中，通常会预先设定犯第一类错误的上限，也就是定义显著性水平 $\alpha$ ，而 $1-\alpha$ 被称为置信度。

在显著性水平固定的情况下，需要减少犯第二类错误 $\beta$ 的概率。 $1-\beta$ 对应于规避第二类错误的概率。

通过预先设定的显著性水平和检验效能，可以计算出完成实验所需要的最小样本量。

20. 简述假设检验中的 p-value 、显著性水平、置信度、检验效能。

p-value：在原假设成立的前提下，检验统计量出现当前值或者更为极端的值的概率。
显著性水平：在假设检验中，犯第一类错误的上限，用 $\alpha$ 表示。
置信度：用 $1-\alpha$ 表示置信度。
检验效能：规避第二类错误的概率，用 power 表示。

21. $z$ 检验和 $t$ 检验之间有什么区别？

$z$ 检验：设 $x_1,x_2,...,x_n$ 为一组来自满足正态分布 $N(\mu,\sigma^2)$ 总体的样本， $\overline x$ 为样本均值， $S^2$ 为样本方差， $\mu_0，\sigma_0$ 为已知常数， $\sigma_0 \gt 0$ 。

已知 $\sigma^2 = \sigma_0^2$ ，检验 $H_0：\mu = \mu_0$ ； $H_1：\mu \ne \mu_0$ 。

此时，在 $H_0$ 成立的前提下，需要构造检验统计量。该检验要求的显著性水平为 $\alpha$ ，显然在 $H_0$ 成立的前提下， $\overline x=\frac{\sum_{i=1}^nx_i}{n}$ 服从 $N(\mu_0,\frac{\sigma^2}{n})$ 的正态分布。若该检验统计量的值最终落在 $[\frac{\alpha}{2},1-\frac{\alpha}{2}]$ 分位数之外，则表明 p-value 小于 $\alpha$ ，可以拒绝原假设，接受备择假设；反之，则无法拒绝原假设。

$t$ 检验：相比于 $z$ 检验， $t$ 检验无需提前获知方差大小，它用样本的方差代替 $z$ 检验中已知的方差构造检验统计量 $\frac{\hat X - \mu_0}{s / \sqrt n}，s=\sqrt{\frac{\sum_{x=1}^n(x_i-\overline X)^2}{n-1}}$ 服从 n-1 的 $t$ 分布。同理，若检验统计量的值落在 $[\frac{\alpha}{2},1-\frac{\alpha}{2}]$ 分位数之外，则可拒绝原假设。

22. 频率派与贝叶斯派的统计思想有什么区别？

在频率派的观点中，样本所属的分布参数 $\theta$ 虽然是未知的，但是固定的，可以通过样本对 $\theta$ 进行估计得到 $\hat\theta$ 。

贝叶斯派则认为参数 $\theta$ 是一个随机变量，不是一个固定值，在样本产生前，会基于经验或者其他方法对 $\theta$ 预先设定一个分布 $\pi(\theta)$ ，称为 先验分布。之后会结合所产生的的样本，对 $\theta$ 的分布进行调整、修正，记为 $\pi(\theta|x_1,x_2,x_3,...)$ ，称为 后验分布。在贝叶斯统计思想中，很重要的一部分就是基于已经产生的样本调整分布。

23. 用简洁的话语解释条件概率。

条件概率是指事件 $A$ 在事件 $B$ 已经发生的条件下发生的概率。条件概率表示为 $P (A ∣ B)$ 。 $P(A|B)=\frac{P(AB)}{P(B)}$ 。

从贝叶斯统计思想来看， $B$ 表示产生的样本， $A$ 表示参数， $P (A)$ 是 $A$ 的先验概率， $P (A ∣ B)$ 是在样本 $B$ 产生后 $A$ 的后验概率值。

24. 解释贝叶斯公式和全概率公式。

全概率公式： $P (B) = P (A) \times P (B ∣ A) + P (A^{'}) \times P (B ∣ A^{'})$
贝叶斯定理（全概率公式是贝叶斯定理的分母） $\frac{P(A∩B)}{P(B)} = \frac {P(A) × P(B | A)}{P(A) × P(B | A) + P(A') × P(B | A')}$

25. 什么是三门问题？用贝叶斯公式进行解释。

三门问题源自美国的一档电视节目，讲的是，在三扇门当中有一扇门里是车，其他两扇门里是羊，目标是选中后面是车的那扇门。参与者首先从三扇门中选择一扇门，之后主持人会根据参与者的选择打开一扇门。如果参与者选择了一扇有羊的门，主持人必须打开另一扇有羊的门，如果参与者选择了一扇有车的门，主持人随机在另外两扇有羊的门中打开一扇门。

此时一个关键的问题是，主持人打开门后，参与者选择是否要换成另一扇未被打开的门，并且计算出参与者选择换或者不换是车的概率。
根据贝叶斯统计理论，应该选择换门（具体计算不在此处展开，感兴趣可以自己动手试一试）。实际的结果在逻辑上并不自相矛盾，但十分违反直觉，选择换那么最终是车的概率为 $\frac{2}{3}$ ，不换则为 $\frac{1}{3}$ 。这是因为已经有了打开一扇有羊的门的样本。

这一问题的关键在于主持人，因为他总会选择一扇后面是羊的门。游戏的调查数据显示，那些改选的参赛选手赢的几率是那些没有改选的人的两倍，这证实了莎凡特在其第三篇专栏中的解释：“当你从三扇门中选了门 1 后，这扇门后面有奖的几率是 $\frac{1}{3}$ ，另两扇门是 $\frac{2}{3}$ 。但接下来主持人给了你一个线索。如果车在门 2 后，主持人将会打开门 3；如果车在门 3 后，他会打开门 2。所以如果你改选的话，只要车在门 2 或门 3 后你就会赢，两种情况你都会赢！但是如果你不改选，只有当车在门 1 后你才会赢。"

总结一句话，概率存在于被给予的条件下，概率不能寄托在实际的物体上。

当然，这里只是非常基础的一些理论知识。如果希望对此有更加深入的理解，需要进一步的学习。水滴石穿非一日之功，与君共勉！

G皮T

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
【数理统计】数据分析需要掌握的统计学理论基础知识

最近在阅读徐麟老师的《数据分析师求职面试指南》，这本书系统性地描述了数据分析师的知识技能框架，非常值得阅读。对于一个数据分析师来说，统计学理论基础知识的重要性不言而喻。虽然这本书通俗易懂，但是只要涉及到数学公式、统计理论，多少会显得有些枯燥无味。这让笔者想起了自己曾经学习概率论、数理统计、离散数学这些课程的“美好时光”！哈哈 ~ 本文是我在读这本书时的一些问题总结。
复制链接

扫一扫