前言
这篇博客是对《马同学——概率论与数理统计》以问答形式的总结。
一、概率论的基本概念
概率论起源于随机现象。它(1)充满不确定性。(2)但结果又有迹可循。
- 试描述赌徒事件,其中的争议,以及涉及到的人物,最后如何解决, 小节2-小节3
问题双方: 梅累骑士与尼古拉斯(化名)
问题解决: 帕斯卡与费马
真随机: 薛定谔的猫,状态本身不可预测
伪随机: 掷骰子,若给定所有限时条件,可以解出是那一面。
频率派: 认为随机现象多次试验结果具有稳定性,当试验次数足够大,就得到概率。
古典派: 不充分理由原则(伯努利), 未知的概率都为等概率(拉普拉斯).
主观派: 认为概率是"信念强度"
- 古典派确定概率的原则是什么,涉及到哪些人物?, 小结4、5
不充分理由原则(伯努利), 未知的概率都为等概率(拉普拉斯).
- 什么是样本空间?什么是样本点?什么是事件?什么是事件的发生?,小节5,6,7
样本空间: 包含所有样本的集合。
样本点: 样本空间中的样本点。
事件: 样本空间的某个子集。
事件的发生: 事件中的某个样本点出现。
- 概率公理化的三个公理是什么?概率公理化的核心思想是什么?, 小节1,2
非负性公理、规范性公理、可加性公理。
核心思想是把概率P定义为一个函数。
因为定义的概率函数为抽象函数,可以使用不同派别的计算方式进行计算。
- 不可能事件发生概率为0,既符合常理,也是概率论严格数学上的推论,小节8
- 容斥原理?,小节8
- 古典派的重要假设是什么?如何通过概率公理化定义概率, 小节1
- 试通过路线选择解释概率的乘法原理讲先后,加法原理讲选择, 小节4,5
- 试距离说明古典派观点计算概率时,样本空间选择的重要性, 小节8
- 我们熟悉的条件概率公式是柯尔莫哥洛夫形式上符合现实的定义,但是并不是唯一定义,并不代表真理, 小节2
- 条件概率和概率公式的相似性、差异性在哪里。小结2,4
- 什么是基本比谬误?试举两个例子说明, 小节1,2
- 如何从基本比-确诊率,先验概率-后验概率,贝叶斯-全概率公式由因溯果3个方面理解贝叶斯原理, 小节3,8
- 试说明赌徒谬误是什么,它错在哪里?, 小节3
- 多事件独立的条件是什么?波罗梅奥环说明了多事件独立的什么关系?, 小节4,5
二、随机变量
- 如何理解随机变量的本质是定义在样本空间上的实值函数,小节3。
- 如何理解 X ≤ x X \leq x X≤x和 X = x X = x X=x,小节3。
- 如何理解伯努利分布是判断是非题,它的概率密度函数是什么?,小节3。
- n重伯努利实验对应的是什么分布,特点是什么,概率密度函数是什么?, 小节4,5。
对应随机变量的二项分布,分布可记做 X ∼ b ( n , p ) X \sim b(n, p) X∼b(n,p)。(其中"n"为得到是的次数,"p"为得到是的概率)。特点是任意两次实验之间独立,概率密度函数为 ( n k ) p k ( 1 − p ) 1 − k \binom{n}{k}p^k(1-p)^{1-k} (kn)pk(1−p)1−k。
- 概率质量函数和累积分布函数(CDF)是什么,小节1, 小节7。
- 如何通过期望来求解赌徒事件中奖金分配问题。, 小节2。
- 是准确描述数学期望的定义,以及其的限制条件,小节3。
- 如何从杠杆原理理解期望是"不确定性到确定性的桥梁"的意义, 小节4。
- 如何从重心理解期望的"加权平均"意义以及概率质量函数为什么叫概率质量函数。小节5.
值: 力矩,概率: 质量。期望: 所有力矩*质量的和,即重心所在位置(所有概率质量和为1)。这也是期望被称作一阶矩的原因。
- 期望满足
齐次性
和可加性
,因此是线性函数,可以直接使用线性代数的结论。 - 二项分布的期望为 n p np np.
- 试描述用期望指导二战征兵验血的过程。 小节7.
- 什么是辛普森悖论,如何从向量观点理解。小节8.
- 如何从打靶理解该式: S = ( X 1 − X ˉ ) 2 + ( X 2 − X ˉ ) + . . . + ( X n − X ˉ ) n S = \frac{(X_1 - \bar{X})^2 + (X_2 - \bar{X}) + ...+ (X_n-\bar{X})}{n} S=n(X1−Xˉ)2+(X2−Xˉ)+...+(Xn−Xˉ)。
- V a r ( X ) = E ( X 2 ) − u 2 , V a r ( c ) = 0 , V a r ( a X + b ) = a 2 V a r ( X ) Var(X) = E(X^2)-u^2,Var(c) = 0, Var(aX+b)=a^2Var(X) Var(X)=E(X2)−u2,Var(c)=0,Var(aX+b)=a2Var(X)
- 从不充分理由原则理解二项分布方差最大时, p = 1 2 p=\frac{1}{2} p=21,小节6
- 马尔科夫不等式是由什么进行估计,回想巨人国的例子并推出马尔科夫不等式。
- 切比雪夫不等式是由什么进行估计的,回忆其推导过程以及其图像。, 小节8。
- 泊松分布是二项分布的极限,泊松分布的形式是什么,试推导泊松分布, 小节1-4
- 泊松分布的三个条件是什么?生活中常见的满足泊松分布的场景有哪些?. 小节5.
- 什么是帕斯卡分布, 试描述著名的巴拿赫火柴问题, 小节3
- 负二项分布和几何分布的关系是什么?,小节4
- 超几何分布是什么,它和二项分布的差别是什么?, 小节6
- 描述所有常见的离散分布,以及他们的物理模型。, 小节7
- 正太分布起源于什么,如何理解中心极限定理。. 小节1,2,3
- 考试成绩符合正太分布吗?为什么?, 小结3.
- 上 α \alpha α分位点是什么?, 小节5.
- 六西格玛原则具体指什么,如何应用到生产当中。, 小节7.
- 泊松过程是如何从泊松分布推广定义的?, 小节3
- 如何使用泊松过程引出指数分布,并说明为什么灯泡寿命服从指数分布。, 小节4.
- 指数分布的期望物理意义是什么?, 小节5.
- 指数分布的无记忆性, 小节6.
- 几何分布和指数分布是唯二的无记忆性的分布。
- 试说明各大重要分布以及各分布之间的联系。,小节8.
- 累积分布函数的三个性质是什么?, 小结2
- 如何使用逆采样变换结合随机分布来采样符合指数分布的实例, 小节7.
- 如何理解随机变量函数的概率密度函数求解定理?, 小节6.
p ( x ) ∣ d x ∣ = p ( y ) ∣ d y ∣ → p ( y ) = p ( x ) ∣ d x ∣ ∣ d y ∣ = p ( h ( y ) ) ∣ h ′ ( y ) ∣ p(x)|dx| = p(y)|dy| \to p(y)=p(x)\frac{|dx|}{|dy|}=p(h(y))|h'(y)| p(x)∣dx∣=p(y)∣dy∣→p(y)=p(x)∣dy∣∣dx∣=p(h(y))∣h′(y)∣
三、多维随机变量及其分布
- 随机向量的定义是怎样的,试举一个例子进行说明?,小节1.
- 如何使用均匀分布求解布什投针问题?,小节5
- 随机变量相互独立的条件是什么?, 小节5
- 全概率和贝叶斯公式的概率密度函数形式是怎样的?, 小节5.
- 离散场合和连续场合的卷积公式是怎样的。它们为什么叫做卷积?小节2.
- 伯努利,二项,几何,正态是如何通过分布的和串起来的.小节3.
- 随机变量分布的极值?,小节5
四、随机变量的数字特征
- 期望是线性函数,满足齐次性和可加性,本质上是因为积分是线性函数。
- 利用期望的线性性质解如下题.小节4
在一个口袋中装有m个颜色各不相同的球,每次从中任取一个,有放回的摸取n次,以X表示在n次摸球中摸到球的不同颜色的数目,求E(X)。
- 施瓦瓷不等式。小节5.
- 如何使用示性函数简化超几何分布期望计算?。小节6.
- 独立随机变量的方差计算 ?。小节5
- 如何通过矩形的面积来理解相关性?。小节2
- 如何简化矩形面积的计算并推算出协方差, 协方差的物理意义是什么?。小节3
- C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y) = E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)−E(X)E(Y)
- 相关系数如何计算,引出的原因是什么?。小节6.
- 相关系数描述的是线性相关的程度。小节7
- 二维正态分布,不相关 ⇔ \Leftrightarrow ⇔独立。小节9
五、大数定律与中心极限定理
- 伯努利大数定律描述了什么?如何证明?,小节1。
- 依概率收敛和数列极限的区别是什么,为什么大数定律需要用依概率收敛表示?, 小节2。
- 辛钦大数定律指的是什么,需要满足什么条件?, 小节3。
- 切比雪夫大数定律指的是什么?需要满足什么条件?, 小节4
- 大数定律总结:
- 描述中心极限定理, 他需要满足的条件是什么?, 小节3
- 从高尔顿钉板、分布演化理解为什么大量分布叠加会收敛于正态分布,小节4
- 中心极限定理有更宽松的条件,只需要满足独立即可
六、数理统计的基本概念
-
如何理解"统计"是"概率"的逆向操作?, 小节1.
-
统计中的"总体"、“个体”、"样本"指的什么?,小节2,3
总体:所有测试结果。个体:每一次的测试结果。样本: 从总体中抽取出的n个个体。
-
如何理解样本通常记作 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn, 样本具有随机性和确定性?, 小结3
-
简单随机样本的两个特点?, 小节4
样本中的个体互相独立,样本与总体同分布。
-
如果样本满足独立且和总体同分布,那么根据辛钦大叔定理,可以通过 X ˉ = X 1 + X 2 + . . . + X n n \bar{X} = \frac{X_1+X_2+...+X_n}{n} Xˉ=nX1+X2+...+Xn估计总体均值 u u u。
-
安斯库姆四重奏是怎样的,说明了什么问题?,小节5。
-
如何理解统计量本身也是随机变量,所以也具有分布?, 小节1。
-
三大分布的作用和意义(待理解)
(1) 衡量统计量对真实分布参数的逼近靠谱程度(当样本数量不多,大数定律无法保证靠谱)。比如 ( n − 1 ) S 2 σ 2 ∼ X 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \mathcal{X}^2(n-1) σ2(n−1)S2∼X2(n−1)(小节6), 自由度为 n − 1 n-1 n−1的卡方分布的概率密度图像我们知道, n n n是常数,那么我们就能够估算统计量 S 2 S^2 S2和 σ 2 \sigma^2 σ2的比值。
(2) 生活中大部分分布是高斯分布,进行参数的区间估计时,需要建立统计量和真实参数的关系,会用到抽样分布。
七、参数估计
估计量 θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}(X_1,X_2,...,X_n) θ^(X1,X2,...,Xn)是统计量的特例,它是对未知参数 θ \theta θ的近似, 称 θ ^ 是 θ \hat{\theta}是\theta θ^是θ的点估计。
-
样本 k k k阶矩是什么?总体 k k k阶矩是什么,为什么说样本 k k k阶矩是总体 k k k阶矩的一致估计。, 小节3。
-
最大似然估计的思想是什么,它的完整定义是什么?, 小节6、7、8.
-
点估计包含矩估计和最大似然估计。
-
最大似然估计和矩估计计算结果不一定相同。
-
估计量的优劣性评价的3个指标,其中一致性、无偏性、有效性是什么?, 小节2,3,4
-
统计是工程学科,采用的估计量或者估计方法需要按实际问题确定。比如使用 S 2 ˉ \bar{S^2} S2ˉ和 S 2 S^2 S2来估计 σ 2 \sigma^2 σ2, 两个估计量各有优势。
-
区间估计的引入原因是什么?, 小节1
-
如何理解 95% 置信区间?, 小节2.
抽样100次,构成100个区间,其中95个区间会包含要估计的参数。
-
置信区间的严格定义是什么?. 小节6.
估计目标: θ \theta θ, 给定条件 α \alpha α, 置信水平: 1 − α 1-\alpha 1−α;找到: 置信下限(统计量): θ ‾ \underline{\theta} θ; 置信上限(统计量): θ ˉ \bar{\theta} θˉ; 置信区间: ( θ ‾ , θ ˉ ) (\underline{\theta},\bar{\theta}) (θ,θˉ). 使得 θ \theta θ在置信区间的概率大于等于 1 − α 1-\alpha 1−α.
-
置信区间的计算步骤是什么,如何理解?, 小节4.
(1) 根据实际情况找到合适的常见分布。(建立统计量和估计参数的联系)
(2) 根据常见分布计算 f ( θ ^ , θ ) f(\hat{\theta},\theta) f(θ^,θ)概率大于等于 1 − α 1-\alpha 1−α的最小区间
(3) 最后移项求解出 θ \theta θ的区间。 -
如果有 X ∼ N ( u , σ 2 ) X \sim N(u, \sigma^2) X∼N(u,σ2), 说明不同情况下要估计 u u u和 σ 2 \sigma^2 σ2所使用的分布. 小节5
八、假设检验
-
说明女士品茶单边假设检验的原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1,以及进行单边假设检验的步骤, 小节2.
(1) 明确原假设、备择假设: H 0 H_0 H0: X ∼ b ( p , 10 ) , p ≤ 0.5 X \sim b(p,10), p\le 0.5 X∼b(p,10),p≤0.5(不具备正确分辨的能力)。 H 1 H_1 H1: X ∼ b ( p , 10 ) , p > 0.5 X \sim b(p,10), p>0.5 X∼b(p,10),p>0.5(具备正确分辨的能力)。
(2)假定原假设成立。给出原假设边界(即 p = 0.5 p = 0.5 p=0.5)的概率密度图像(因为边界拒绝域包含了非边界拒绝域),根据概率密度函数确定拒绝域。
(3) 判断事实是否落入拒绝域,若落入,则拒绝 H 0 H_0 H0, 否则接受。 -
说明女士品茶的双边假设检验的原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1, 以及进行双边假设检验的步骤。小节3
-
假设的指定要符合什么原则?, 小节4
无罪推定、便于计算。
-
说明总体 X ∼ N ( u , σ 2 ) X \sim N(u, \sigma^2) X∼N(u,σ2),当 σ 2 \sigma^2 σ2已知/未知时, u u u的双边检验和单边检验的方法, 小节1,小节2
-
说明总体 X ∼ N ( u , σ 2 ) X \sim N(u, \sigma^2) X∼N(u,σ2),当 u u u已知/未知时, σ 2 \sigma^2 σ2的双边检验和单边检验的方法, 小节4
-
置信区间和假设检验的联系?(待理解)
-
假设检验的总结, 小节6.