概率与统计之一
\color{green}\Large\textbf{概率与统计之一}
概率与统计之一
文章为一些读书笔记,原书为机械工业出版社的《概率论导论》Joseph K.Blizstein和Jessica Hwang著,案例讲解和讲述证明是本书的一大特点,教给人们的不只是一些概率论的概念和公式,而是思考问题的思维方式和策略。不过就是书里的错印有点多,需要边看边改。
_(:з」∠)
一. 概率与计数
1. 常用恒等式
- ( n k ) = ( n n − k ) \binom{n}{k} = \binom{n}{n-k} (kn)=(n−kn)
-
(
n
1
)
(
n
−
1
k
−
1
)
=
(
n
k
)
(
k
1
)
\binom{n}{1}\binom{n-1}{k-1} = \binom{n}{k}\binom{k}{1}
(1n)(k−1n−1)=(kn)(1k)
解释:
n n n中选出一个,再在余下的 n − 1 n-1 n−1中选出 k − 1 k-1 k−1个
n n n中选出 k k k个,再在选出的 k k k个中选出1个
此两种选法的所可能的组合数是相等的 - 范德蒙恒等式
( m + n k ) = ∑ j = 0 k ( m j ) ( n k − j ) \binom{m+n}{k}=\sum_{j=0}^k\binom{m}{j}\binom{n}{k-j} (km+n)=j=0∑k(jm)(k−jn) - ( 2 n ) ! 2 n ∗ n ! = ( 2 n − 1 ) ( 2 n − 3 ) ⋅ ⋅ ⋅ 3 ⋅ 1 \frac{(2n)!}{2^n*n!}=(2n-1)(2n-3)\cdot\cdot\cdot3\cdot1 2n∗n!(2n)!=(2n−1)(2n−3)⋅⋅⋅3⋅1
2. 频率学派和贝叶斯学派
- 频率学派所理解的概率是指在进行了大量重复试验后出现结果的频率的长期趋势。是有数据作为依据的客观结果。 也就是概率的朴素定义 频率学派所理解的概率是指在进行了大量重复试验后出现结果的频率的长期趋势。是有数据作为依据的客观结果。\\ 也就是概率的朴素定义 频率学派所理解的概率是指在进行了大量重复试验后出现结果的频率的长期趋势。是有数据作为依据的客观结果。也就是概率的朴素定义
- 贝叶斯学派所理解的概率是对一个时间的相信程度,或者说对一个状态出现的可能性的评估。也就是概率的 非朴素定义 贝叶斯学派所理解的概率是对一个时间的相信程度,或者说对一个状态出现的可能性的评估。也就是概率的\\非朴素定义 贝叶斯学派所理解的概率是对一个时间的相信程度,或者说对一个状态出现的可能性的评估。也就是概率的非朴素定义
- 需要注意的是,尽管两种学派对于概率的理解不一样,但作为概率本身的数值是可以通用的,概率的性质也 是一致的。记住这个关键点对于数学建模相当重要 需要注意的是,尽管两种学派对于概率的理解不一样,但作为概率本身的数值是可以通用的,概率的性质也\\是一致的。记住这个关键点对于数学建模相当重要 需要注意的是,尽管两种学派对于概率的理解不一样,但作为概率本身的数值是可以通用的,概率的性质也是一致的。记住这个关键点对于数学建模相当重要
- 一个简单地例子,假设一个大城市的总人口保持相对固定。同时每年有 6 % 的人从城市搬到郊区, 2 % 的人从郊区 搬到城市。如果初始时, 30 % 的人生活在城市, 70 % 的人生活在郊区,那么 n 年后 , n → ∞ ,城市人口和郊区人口 的比例会如何? 解释: 首先 ,直观的感觉是这是要使用马尔科夫链进行数学建模,那么既然用到马尔科夫链,就需要明确链中的 状态空间。 其次 ,状态的定义实际上就是对概率从朴素定义到非朴素定义的一种理解的转变。对于例子中描述的概率百分比, 同样可以通过频率学派和贝叶斯学派的两种观念去理解。 频率学派 ,通过每年对于一些特征人口的数量统计来计算处他们在总人口中所占的比例,以此为概率 比如说 城市人口数 总人口数 = 0.3 , 搬去城市的人口数 原郊区人口数 = 0.02 。 贝叶斯学派 ,将不再是着眼于一个庞大的特征人口整体,而是从某一个体的状态出发。比如说从总人口中随机 抽取一个人,则他是一名城市居民的概率为 0.3 , 即 P ( 他是城市人 ) = 0.3 ;同样在郊区人中随机抽取一个人,则他 今年会搬往城市的概率为 0.02 ,即 P ( 他要搬往城市 ) = 0.02 。 总结 , 这样我们就明确了每一个人各种状态出现的概率。而这些贝叶斯学派观点下这些状态出现的概率与频率学派 中通过统计计算得出的比例是一致的,于是我们就可以通过计算某个体特征状态出现的概率来表示该特征人口的 比例 回到例子 ,很明显在例子中每一个人有两种状态, { 1 ( 城市居民 ) , 2 ( 郊区居民 ) } ,于是 q 11 = 0.94 , q 12 = 0.06 , q 21 = 0.02 , q 22 = 0.98 ,写作转移矩阵 Q T = [ 0.94 0.06 0.02 0.98 ] ,初始状态向量为 s = ( s 1 , s 2 ) = ( 0.3 , 0.7 ) T ,于是 稳态向量 x = Q n s = ( 0.25 , 0.75 ) T , n → ∞ , 也就是当很长一段时间后,任意一人是城市人口的概率为 0.25 , 是郊区人口的概率是 0.75 ,也就是说在总人口中,城市人口占比 25 % ,农村人口占比 75 % 一个简单地例子,假设一个大城市的总人口保持相对固定。同时每年有6\%的人从城市搬到郊区,2\%的人从郊区\\ 搬到城市。如果初始时,30\%的人生活在城市,70\%的人生活在郊区,那么n年后,n\to\infty,城市人口和郊区人口\\的比例会如何?\\ \textcolor{blue}{解释:\\ 首先},直观的感觉是这是要使用马尔科夫链进行数学建模,那么既然用到马尔科夫链,就需要明确链中的\\ 状态空间。\\ \textcolor{blue}{其次},状态的定义实际上就是对概率从朴素定义到非朴素定义的一种理解的转变。对于例子中描述的概率百分比,\\ 同样可以通过频率学派和贝叶斯学派的两种观念去理解。\\ \textcolor{green}{频率学派},通过每年对于一些特征人口的数量统计来计算处他们在总人口中所占的比例,以此为概率\\ 比如说\frac{城市人口数}{总人口数}=0.3,\frac{搬去城市的人口数}{原郊区人口数}=0.02。 \\\textcolor{green}{贝叶斯学派},将不再是着眼于一个庞大的特征人口整体,而是从某一个体的状态出发。比如说从总人口中随机\\ 抽取一个人,则他是一名城市居民的概率为0.3,即P(他是城市人)=0.3;同样在郊区人中随机抽取一个人,则他\\ 今年会搬往城市的概率为0.02,即P(他要搬往城市)=0.02。\\ \textcolor{green}{总结},这样我们就明确了每一个人各种状态出现的概率。而这些贝叶斯学派观点下这些状态出现的概率与频率学派\\ 中通过统计计算得出的比例是一致的,于是我们就可以通过计算某个体特征状态出现的概率来表示该特征人口的\\比例\\ \textcolor{blue}{回到例子},很明显在例子中每一个人有两种状态,\{1(城市居民),2(郊区居民)\},于是q_{11}=0.94,q_{12}=0.06,\\ q_{21}=0.02,q_{22}=0.98,写作转移矩阵Q^T=\begin{bmatrix}0.94&0.06\\0.02&0.98\\\end{bmatrix},初始状态向量为s=(s_1,s_2)=(0.3,0.7)^T,于是\\稳态向量x=Q^ns=(0.25,0.75)^T,\ n\to\infty,也就是当很长一段时间后,任意一人是城市人口的概率为0.25,\\是郊区人口的概率是0.75,也就是说在总人口中,城市人口占比25\%,农村人口占比75\% 一个简单地例子,假设一个大城市的总人口保持相对固定。同时每年有6%的人从城市搬到郊区,2%的人从郊区搬到城市。如果初始时,30%的人生活在城市,70%的人生活在郊区,那么n年后,n→∞,城市人口和郊区人口的比例会如何?解释:首先,直观的感觉是这是要使用马尔科夫链进行数学建模,那么既然用到马尔科夫链,就需要明确链中的状态空间。其次,状态的定义实际上就是对概率从朴素定义到非朴素定义的一种理解的转变。对于例子中描述的概率百分比,同样可以通过频率学派和贝叶斯学派的两种观念去理解。频率学派,通过每年对于一些特征人口的数量统计来计算处他们在总人口中所占的比例,以此为概率比如说总人口数城市人口数=0.3,原郊区人口数搬去城市的人口数=0.02。贝叶斯学派,将不再是着眼于一个庞大的特征人口整体,而是从某一个体的状态出发。比如说从总人口中随机抽取一个人,则他是一名城市居民的概率为0.3,即P(他是城市人)=0.3;同样在郊区人中随机抽取一个人,则他今年会搬往城市的概率为0.02,即P(他要搬往城市)=0.02。总结,这样我们就明确了每一个人各种状态出现的概率。而这些贝叶斯学派观点下这些状态出现的概率与频率学派中通过统计计算得出的比例是一致的,于是我们就可以通过计算某个体特征状态出现的概率来表示该特征人口的比例回到例子,很明显在例子中每一个人有两种状态,{1(城市居民),2(郊区居民)},于是q11=0.94,q12=0.06,q21=0.02,q22=0.98,写作转移矩阵QT=[0.940.020.060.98],初始状态向量为s=(s1,s2)=(0.3,0.7)T,于是稳态向量x=Qns=(0.25,0.75)T, n→∞,也就是当很长一段时间后,任意一人是城市人口的概率为0.25,是郊区人口的概率是0.75,也就是说在总人口中,城市人口占比25%,农村人口占比75%
二. 条件概率
1. 贝叶斯准则
贝叶斯准则
联立
P
(
A
∣
B
)
=
P
(
A
∩
B
)
P
(
B
)
以及
P
(
B
∣
A
)
=
P
(
B
∩
A
)
P
(
A
)
⇓
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P
(
A
)
,
P
(
B
)
,
P
(
A
,
B
)
都为全局概率或者说无条件概率,而
P
(
A
∣
B
)
和
P
(
B
∣
A
)
为条件概率,简单来说就是当一个交叉事件的从全局集合进入子集时,概率所发生的一个转换,
比如说
P
(
A
,
B
)
是在全局集合条件下或者无条件下
,
A
,
B
同时发生的概率为
P
(
A
,
B
)
那么当
B
已确定发生后,
A
,
B
同时发生的事件将变为在
B
发生的条件下发生
A
,即
P
(
A
∣
B
)
,
也就相当于
P
(
A
,
B
)
在进入满足
B
事件发生的子集后,所做的概率转换,把握住这个思想就可以通过迭代来处理更多数目的事件发生的概率
P
(
A
∣
B
,
C
,
D
)
=
P
(
A
,
B
,
C
,
D
)
P
(
B
,
C
,
D
)
=
P
(
A
,
B
,
C
,
D
)
P
(
B
∣
C
,
D
)
P
(
C
,
D
)
=
P
(
A
,
B
,
C
,
D
)
P
(
B
∣
C
,
D
)
P
(
C
∣
D
)
P
(
D
)
⇓
P
(
A
,
B
,
C
,
D
)
=
P
(
A
∣
B
,
C
,
D
)
P
(
B
∣
C
,
D
)
P
(
C
∣
D
)
P
(
D
)
1
◯
P
(
B
∣
A
,
C
,
D
)
=
P
(
A
,
B
,
C
,
D
)
P
(
A
,
C
,
D
)
=
P
(
A
,
B
,
C
,
D
)
P
(
A
∣
C
,
D
)
P
(
C
,
D
)
=
P
(
A
,
B
,
C
,
D
)
P
(
A
∣
C
,
D
)
P
(
C
∣
D
)
P
(
D
)
⇓
P
(
A
,
B
,
C
,
D
)
=
P
(
B
∣
A
,
C
,
D
)
P
(
A
∣
C
,
D
)
P
(
C
∣
D
)
P
(
D
)
2
◯
1
◯
2
◯
式结合消去公因式得
P
(
A
∣
B
,
C
,
D
)
P
(
B
∣
C
,
D
)
=
P
(
B
∣
A
,
C
,
D
)
P
(
A
∣
C
,
D
)
⟹
P
(
A
∣
B
,
C
,
D
)
=
P
(
B
∣
A
,
C
,
D
)
P
(
A
∣
C
,
D
)
P
(
B
∣
C
,
D
)
\begin{aligned} \text{联立}P(A|B)=\frac{P(A\cap B)}{P(B)} &\text{以及} P(B|A)=\frac{P(B\cap A)}{P(A)}\\ &\Downarrow \\ P(A|B) =& \frac{P(B|A)P(A)}{P(B)}\\ \end{aligned}\\ \begin{aligned} &P(A),P(B),P(A,B)都为全局概率或者说无条件概率,而P(A|B)和P(B|A)为条件概率,简单来说就是当一个交叉事件的从全局集合进入子集时,概率所发生的一个转换,\\ &比如说P(A,B)是在全局集合条件下或者无条件下,A,B同时发生的概率为P(A,B)那么当B已确定发生后,A,B同时发生的事件将变为在B发生的条件下发生A,即P(A|B),\\ &也就相当于P(A,B)在进入满足B事件发生的子集后,所做的概率转换,把握住这个思想就可以通过迭代来处理更多数目的事件发生的概率 \end{aligned}\\ \begin{aligned} P(A|B,C,D)=\frac{P(A,B,C,D)}{P(B,C,D)}=&\frac{P(A,B,C,D)}{P(B|C,D)P(C,D)}=\frac{P(A,B,C,D)}{P(B|C,D)P(C|D)P(D)}\\ &\Downarrow\\ P(A,B,C,D)=&P(A|B,C,D)P(B|C,D)P(C|D)P(D)\qquad\text{\textcircled 1}\\ \\ P(B|A,C,D)=\frac{P(A,B,C,D)}{P(A,C,D)}=&\frac{P(A,B,C,D)}{P(A|C,D)P(C,D)}=\frac{P(A,B,C,D)}{P(A|C,D)P(C|D)P(D)}\\ &\Downarrow\\ P(A,B,C,D)=&P(B|A,C,D)P(A|C,D)P(C|D)P(D)\qquad\text{\textcircled 2}\\ \end{aligned}\\ \begin{aligned} &\text{\textcircled 1}\text{\textcircled 2}式结合消去公因式得\\ &P(A|B,C,D)P(B|C,D)=P(B|A,C,D)P(A|C,D)\implies P(A|B,C,D)=\frac{P(B|A,C,D)P(A|C,D)}{P(B|C,D)} \end{aligned}\\
联立P(A∣B)=P(B)P(A∩B)P(A∣B)=以及P(B∣A)=P(A)P(B∩A)⇓P(B)P(B∣A)P(A)P(A),P(B),P(A,B)都为全局概率或者说无条件概率,而P(A∣B)和P(B∣A)为条件概率,简单来说就是当一个交叉事件的从全局集合进入子集时,概率所发生的一个转换,比如说P(A,B)是在全局集合条件下或者无条件下,A,B同时发生的概率为P(A,B)那么当B已确定发生后,A,B同时发生的事件将变为在B发生的条件下发生A,即P(A∣B),也就相当于P(A,B)在进入满足B事件发生的子集后,所做的概率转换,把握住这个思想就可以通过迭代来处理更多数目的事件发生的概率P(A∣B,C,D)=P(B,C,D)P(A,B,C,D)=P(A,B,C,D)=P(B∣A,C,D)=P(A,C,D)P(A,B,C,D)=P(A,B,C,D)=P(B∣C,D)P(C,D)P(A,B,C,D)=P(B∣C,D)P(C∣D)P(D)P(A,B,C,D)⇓P(A∣B,C,D)P(B∣C,D)P(C∣D)P(D)1◯P(A∣C,D)P(C,D)P(A,B,C,D)=P(A∣C,D)P(C∣D)P(D)P(A,B,C,D)⇓P(B∣A,C,D)P(A∣C,D)P(C∣D)P(D)2◯1◯2◯式结合消去公因式得P(A∣B,C,D)P(B∣C,D)=P(B∣A,C,D)P(A∣C,D)⟹P(A∣B,C,D)=P(B∣C,D)P(B∣A,C,D)P(A∣C,D)
贝叶斯准则更通俗的理解便是特征与本体分类,
比如说特征:喉结;本体分类:男性(性别)
P
(
A
∣
B
)
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
P(A|B) P(B) = P(B|A)P(A)
P(A∣B)P(B)=P(B∣A)P(A)
中可以把
P
(
B
)
P(B)
P(B)看作是特征,
P
(
A
)
P(A)
P(A)看作是本体分类,
P
(
A
∣
B
)
P(A|B)
P(A∣B)是当出现某一特征时观察到该本体为某一类的概率,
P
(
B
∣
A
)
P(B|A)
P(B∣A)是当本体为某一类时能管观察到该本体内某一特征的概率。
以上面的男性特征为例就是
P
(
B
)
:
地球上所有人中随机抽出某一人出现喉结的概率
P
(
A
)
:
地球上所有人中随机抽出某一人该人性别为男性的概率
P
(
A
∣
B
)
:
当确认观察到某人存在喉结时,该人为男性的概率
(
也就是说有些女性也会存在喉结
)
P
(
B
∣
A
)
:
当确认观察到某人为男性时,会观察到该人存在喉结的概率
\begin{aligned} P(B) : &地球上所有人中随机抽出某一人出现喉结的概率\\ P(A) : &地球上所有人中随机抽出某一人该人性别为男性的概率\\ P(A|B) :&当确认观察到某人存在喉结时,该人为男性的概率(也就是说有些女性也会存在喉结)\\ P(B|A) :&当确认观察到某人为男性时,会观察到该人存在喉结的概率\\ \end{aligned}
P(B):P(A):P(A∣B):P(B∣A):地球上所有人中随机抽出某一人出现喉结的概率地球上所有人中随机抽出某一人该人性别为男性的概率当确认观察到某人存在喉结时,该人为男性的概率(也就是说有些女性也会存在喉结)当确认观察到某人为男性时,会观察到该人存在喉结的概率
几率
一个事件
A
A
A的几率为
o
d
d
s
(
A
)
=
P
(
A
)
P
(
A
c
)
odds(A)=\frac{P(A)}{P(A^c)}
odds(A)=P(Ac)P(A)
贝叶斯准则的几率形式
P
(
A
∣
B
)
P
(
A
c
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
∣
A
c
)
P
(
A
c
)
\frac{P(A|B)}{P(A^c|B)}=\frac{P(B|A)P(A)}{P(B|A^c)P(A^c)}
P(Ac∣B)P(A∣B)=P(B∣Ac)P(Ac)P(B∣A)P(A)
其中
- 先验几率: P ( A ∣ B ) P ( A c ∣ B ) \frac{P(A|B)}{P(A^c|B)} P(Ac∣B)P(A∣B)
- 后验几率: P ( A ) P ( A c ) \frac{P(A)}{P(A^c)} P(Ac)P(A)
- 似然比: P ( B ∣ A ) P ( B ∣ A c ) \frac{P(B|A)}{P(B|A^c)} P(B∣Ac)P(B∣A)
- 所以用语言来形容就是后验几率等于先验几率乘以似然比
2. 全概率公式
全概率公式
P
(
B
)
=
∑
i
=
1
n
P
(
B
∣
A
i
)
P
(
A
i
)
即
P
(
B
)
=
P
(
B
∩
A
1
)
+
P
(
B
∩
A
2
)
+
⋅
⋅
⋅
+
P
(
B
∩
A
n
)
或
P
(
B
)
=
P
(
B
∣
A
1
)
P
(
A
1
)
+
P
(
B
∣
A
2
)
P
(
A
2
)
+
⋅
⋅
⋅
+
P
(
B
∣
A
n
)
P
(
A
n
)
对于全概率公式,首先还是要从条件概率入手去理解。用最简单的掷两个色子为例去说明
设掷第一个色子的数字结果随机变量为
A
,第二个为
B
,于是
A
,
B
均服从离散均匀分布,且相互独立
首先是条件质量函数为一个有效质量函数
,假设
A
色子先完成了投掷并获得了结果为
5
,
并设一示性变量
I
表示
B
色子投掷的结果是否大于
A
的结果,如果大于则
I
=
1
否则
I
=
0
,
于是
I
在
A
=
5
的条件下概率质量函数为
P
(
I
=
1
∣
A
=
5
)
=
1
6
,
P
(
I
=
0
∣
A
=
5
)
=
5
6
或者另一种写法就是
P
(
B
>
A
∣
A
=
5
)
=
1
6
,
P
(
B
≤
A
∣
A
=
5
)
=
5
6
,
很显然
P
(
I
=
0
)
+
P
(
I
=
1
)
=
1
该条件概率质量函数的和为
1
,是有效的概率质量函数
在条件下
I
与
A
是否是相互独立的
,首先要明确条件下的
I
其中的条件是已经确定了的,在此前提下引出
I
的分布,
此时的
A
=
5
其实并不是一个变量,而是更像一个固定好的常数,很明显
P
(
I
=
1
∣
A
=
5
)
和
P
(
I
=
0
∣
A
=
5
)
不会因为
A
取其他数而改变,
所以条件下的
I
与
A
是相互独立的,因为在条件固定的情况下,想要影响随机变量
I
的分布的唯一办法就是改变色子六种数字出现的概率
而对于
A
来说无论去什么值都不会影响
B
的取值。
求无条件下
I
的分布
,由于条件下
I
与
A
是相互独立的,所以出现
A
=
5
并且在此条件下
I
=
1
的概率为
P
(
I
=
1
∣
A
=
5
)
P
(
A
=
5
)
=
1
36
而作为外部条件,
A
的取值可能性有
6
种,把六种条件各自出现的并且在此条件下
I
=
1
的概率加起来便是
P
(
I
=
1
)
=
∑
i
=
1
6
P
(
I
=
1
∣
A
=
i
)
P
(
A
=
i
)
可以看出来便览的是外部条件的所有可能性,同时在外部条件确定后再进行内部条件的便览,并累积所有可能性,这便是全概率公式的基本思想
如果把质量函数换成密度函数,求和变成求积分,那么这就变成求多重积分的问题了
\begin{aligned} P(B)=&\sum_{i=1}^nP(B|A_i)P(A_i)\\ 即P(B)=&P(B \cap A_1)+P(B \cap A_2)+\cdot\cdot\cdot+P(B \cap A_n)\\ 或P(B)=&P(B | A_1)P(A_1)+P(B | A_2)P(A_2)+\cdot\cdot\cdot+P(B | A_n)P(A_n) \end{aligned}\\ \begin{aligned} &对于全概率公式,首先还是要从条件概率入手去理解。用最简单的掷两个色子为例去说明\\ &设掷第一个色子的数字结果随机变量为A,第二个为B,于是A,B均服从离散均匀分布,且相互独立\\ &\textcolor{blue}{首先是条件质量函数为一个有效质量函数},假设A色子先完成了投掷并获得了结果为5,\\ &并设一示性变量I表示B色子投掷的结果是否大于A的结果,如果大于则I=1否则I=0,\\ &于是I在A=5的条件下概率质量函数为P(I=1|A=5)=\frac{1}{6},P(I=0|A=5)=\frac{5}{6}\\ &或者另一种写法就是P(B>A|A=5)=\frac{1}{6},P(B\leq A|A=5)=\frac{5}{6},\\ &很显然P(I=0)+P(I=1)=1该条件概率质量函数的和为1,是有效的概率质量函数\\ &\textcolor{blue}{在条件下I与A是否是相互独立的},首先要明确条件下的I其中的条件是已经确定了的,在此前提下引出I的分布,\\ &此时的A=5其实并不是一个变量,而是更像一个固定好的常数,很明显P(I=1|A=5)和P(I=0|A=5)不会因为A取其他数而改变,\\ &所以条件下的I与A是相互独立的,因为在条件固定的情况下,想要影响随机变量I的分布的唯一办法就是改变色子六种数字出现的概率\\ &而对于A来说无论去什么值都不会影响B的取值。\\ &\textcolor{blue}{求无条件下I的分布},由于条件下I与A是相互独立的,所以出现A=5并且在此条件下I=1的概率为P(I=1|A=5)P(A=5)=\frac{1}{36}\\ &而作为外部条件,A的取值可能性有6种,把六种条件各自出现的并且在此条件下I=1的概率加起来便是P(I=1)=\sum_{i=1}^{6}P(I=1|A=i)P(A=i)\\ &\textcolor{red}{可以看出来便览的是外部条件的所有可能性,同时在外部条件确定后再进行内部条件的便览,并累积所有可能性,这便是全概率公式的基本思想}\\ &\textcolor{blue}{如果把质量函数换成密度函数,求和变成求积分,那么这就变成求多重积分的问题了} \end{aligned}\\
P(B)=即P(B)=或P(B)=i=1∑nP(B∣Ai)P(Ai)P(B∩A1)+P(B∩A2)+⋅⋅⋅+P(B∩An)P(B∣A1)P(A1)+P(B∣A2)P(A2)+⋅⋅⋅+P(B∣An)P(An)对于全概率公式,首先还是要从条件概率入手去理解。用最简单的掷两个色子为例去说明设掷第一个色子的数字结果随机变量为A,第二个为B,于是A,B均服从离散均匀分布,且相互独立首先是条件质量函数为一个有效质量函数,假设A色子先完成了投掷并获得了结果为5,并设一示性变量I表示B色子投掷的结果是否大于A的结果,如果大于则I=1否则I=0,于是I在A=5的条件下概率质量函数为P(I=1∣A=5)=61,P(I=0∣A=5)=65或者另一种写法就是P(B>A∣A=5)=61,P(B≤A∣A=5)=65,很显然P(I=0)+P(I=1)=1该条件概率质量函数的和为1,是有效的概率质量函数在条件下I与A是否是相互独立的,首先要明确条件下的I其中的条件是已经确定了的,在此前提下引出I的分布,此时的A=5其实并不是一个变量,而是更像一个固定好的常数,很明显P(I=1∣A=5)和P(I=0∣A=5)不会因为A取其他数而改变,所以条件下的I与A是相互独立的,因为在条件固定的情况下,想要影响随机变量I的分布的唯一办法就是改变色子六种数字出现的概率而对于A来说无论去什么值都不会影响B的取值。求无条件下I的分布,由于条件下I与A是相互独立的,所以出现A=5并且在此条件下I=1的概率为P(I=1∣A=5)P(A=5)=361而作为外部条件,A的取值可能性有6种,把六种条件各自出现的并且在此条件下I=1的概率加起来便是P(I=1)=i=1∑6P(I=1∣A=i)P(A=i)可以看出来便览的是外部条件的所有可能性,同时在外部条件确定后再进行内部条件的便览,并累积所有可能性,这便是全概率公式的基本思想如果把质量函数换成密度函数,求和变成求积分,那么这就变成求多重积分的问题了
3.条件贝叶斯准则与条件全概率公式
条件贝叶斯准则
P
(
A
∣
B
,
E
)
=
P
(
B
∣
A
,
E
)
P
(
A
∣
E
)
P
(
B
∣
E
)
P(A|B,E) = \frac{P(B|A,E)P(A|E)}{P(B|E)}
P(A∣B,E)=P(B∣E)P(B∣A,E)P(A∣E)
递推一下
P
(
A
∣
B
,
E
)
=
P
(
B
∣
A
,
E
)
P
(
A
∣
E
)
P
(
B
∣
E
)
⇓
P
(
A
∣
B
,
E
)
P
(
B
∣
E
)
=
P
(
B
∣
A
,
E
)
P
(
A
∣
E
)
⇓
P
(
A
∣
B
,
E
)
P
(
B
∩
E
)
P
(
E
)
=
P
(
B
∣
A
,
E
)
P
(
A
∩
E
)
P
(
E
)
⇓
P
(
A
∣
B
,
E
)
P
(
B
∩
E
)
=
P
(
B
∣
A
,
E
)
P
(
A
∩
E
)
⇓
P
(
A
∩
B
∩
E
)
=
P
(
B
∩
A
∩
E
)
\begin{aligned} P(A|B,E) &= \frac{P(B|A,E)P(A|E)}{P(B|E)}\\ &\Downarrow\\ P(A|B,E)P(B|E) &= P(B|A,E)P(A|E)\\ &\Downarrow\\ \frac{P(A|B,E)P(B\cap E)}{P(E)}&=\frac{P(B|A,E)P(A\cap E)}{P(E)}\\ &\Downarrow\\ P(A|B,E)P(B\cap E)&=P(B|A,E)P(A\cap E)\\ &\Downarrow\\ P(A\cap B \cap E)&=P(B \cap A \cap E) \end{aligned}
P(A∣B,E)P(A∣B,E)P(B∣E)P(E)P(A∣B,E)P(B∩E)P(A∣B,E)P(B∩E)P(A∩B∩E)=P(B∣E)P(B∣A,E)P(A∣E)⇓=P(B∣A,E)P(A∣E)⇓=P(E)P(B∣A,E)P(A∩E)⇓=P(B∣A,E)P(A∩E)⇓=P(B∩A∩E)
条件全概率公式
P
(
B
∩
E
)
=
∑
i
=
1
n
P
(
B
∣
A
i
,
E
)
P
(
A
i
∩
E
)
⇓
P
(
B
∩
E
)
P
(
E
)
=
∑
i
=
1
n
P
(
B
∣
A
i
,
E
)
P
(
A
i
∩
E
)
P
(
E
)
⇓
P
(
B
∣
E
)
=
∑
i
=
1
n
P
(
B
∣
A
i
,
E
)
P
(
A
i
∣
E
)
\begin{aligned} P(B\cap E)=\sum_{i=1}^n&P(B|A_i,E)P(A_i \cap E)\\ &\Downarrow\\ \frac{P(B\cap E)}{P(E)}=\sum_{i=1}^n&\frac{P(B|A_i,E)P(A_i \cap E)}{P(E)}\\ &\Downarrow\\ P(B|E)=\sum_{i=1}^n&P(B|A_i,E)P(A_i|E) \end{aligned}
P(B∩E)=i=1∑nP(E)P(B∩E)=i=1∑nP(B∣E)=i=1∑nP(B∣Ai,E)P(Ai∩E)⇓P(E)P(B∣Ai,E)P(Ai∩E)⇓P(B∣Ai,E)P(Ai∣E)
或者
∑
i
=
1
n
P
(
B
∣
A
i
,
E
)
P
(
A
i
∣
E
)
=
∑
i
=
1
n
P
(
B
∣
A
i
,
E
)
P
(
A
i
∩
E
)
P
(
E
)
=
1
P
(
E
)
∑
i
=
1
n
P
(
B
∩
A
i
∩
E
)
=
1
P
(
E
)
∑
i
=
1
n
P
(
B
∩
E
∩
A
i
)
利用全概率公式
=
P
(
B
∩
E
)
P
(
E
)
=
P
(
B
∣
E
)
\begin{aligned} &\quad\sum_{i=1}^nP(B|A_i,E)P(A_i|E)\\ &=\sum_{i=1}^n \frac{P(B|A_i,E)P(A_i\cap E)}{P(E)}\\ &=\frac{1}{P(E)}\sum_{i=1}^n P(B \cap A_i \cap E)\\ &=\frac{1}{P(E)}\sum_{i=1}^n P(B \cap E \cap A_i){\small利用全概率公式}\\ &=\frac{P(B \cap E)}{P(E)}\\ &=P(B | E) \end{aligned}
i=1∑nP(B∣Ai,E)P(Ai∣E)=i=1∑nP(E)P(B∣Ai,E)P(Ai∩E)=P(E)1i=1∑nP(B∩Ai∩E)=P(E)1i=1∑nP(B∩E∩Ai)利用全概率公式=P(E)P(B∩E)=P(B∣E)
4.先验后验概率
一般来说假设一个事件
A
发生的概率
P
(
A
)
为先验概率,而当事件
B
发生后,在给定的条件
B
下更新
A
发生的
概率为
P
(
A
∣
B
)
,此称之为后验概率
一般来说假设一个事件A发生的概率P(A)为先验概率,而当事件B发生后,在给定的条件B下更新A发生的 \\概率为P(A|B),此称之为后验概率
一般来说假设一个事件A发生的概率P(A)为先验概率,而当事件B发生后,在给定的条件B下更新A发生的概率为P(A∣B),此称之为后验概率
虽然经常有条件概率和无条件概率之分,但其实精确点来说无条件概率也是条件概率,只不过它的条件比较宽泛,有跟没有没啥区别,所以也就等同于没有,对于无条件概率的条件一般用
K
K
K来表示即
P
(
A
)
=
P
(
A
∣
K
)
P(A)=P(A|K)
P(A)=P(A∣K)所以我更倾向于称所有概率为条件概率。所以要明确几个表示
- A 的先验概率为 P ( A ) 或 P ( A ∣ K ) A的先验概率为P(A)或P(A|K) A的先验概率为P(A)或P(A∣K)
- B 发生后,以 B 为条件的 A 的后验概率为 P ( A ∣ B ) B发生后,以B为条件的A的后验概率为P(A|B) B发生后,以B为条件的A的后验概率为P(A∣B)
- A 发生后,以 A 为条件的 A 的后验概率为 P ( A ∣ A ) = 1 A发生后,以A为条件的A的后验概率为P(A|A)=1 A发生后,以A为条件的A的后验概率为P(A∣A)=1
对于先验概率和后验概率的计算可以用一个患病概率的例子来说明
假设一种疾病的患病率为
1
%
。现有一名疑似患者,令
D
事件表示确认该名疑似患者有此病,
T
事件表示检测结果为阳性
假设检测的准确率为
95
%
。求第一次检测结果为阳性时该名疑似患者的确认得此病的概率,以及第二次检测仍未阳性时的得病概率
假设一种疾病的患病率为1\%。现有一名疑似患者,令D事件表示确认该名疑似患者有此病,T事件表示检测结果为阳性\\ 假设检测的准确率为95\%。求第一次检测结果为阳性时该名疑似患者的确认得此病的概率,以及第二次检测仍未阳性时的得病概率
假设一种疾病的患病率为1%。现有一名疑似患者,令D事件表示确认该名疑似患者有此病,T事件表示检测结果为阳性假设检测的准确率为95%。求第一次检测结果为阳性时该名疑似患者的确认得此病的概率,以及第二次检测仍未阳性时的得病概率
解: 这个其实就是求 P ( D ) , 首先最重要的一点是检测准确率并不是 P ( D ∣ T ) 而是 P ( T ∣ D ) = 95 % , 也就是说你必须怀疑自己有病才去做检验,检验才有可能是阳性,但阳性仅仅是阳性并不能引起一个人患病, 引起一个人患病的原因在于体能的病变而不是检测。而对于检测显阳性又有两种可能,一是的确患病显阳性,此为真阳性, 二为假阳性,就是没有患病却显阳性。 第一次测试,根据全概率公式 P ( T 1 ) = P ( T 1 ∣ D ) P ( D ) + P ( T 1 ∣ D c ) P ( D c ) 于是又根据贝叶斯准则 P ( D ∣ T 1 ) = P ( T 1 ∣ D ) P ( D ) P ( T 1 ∣ D ) P ( D ) + P ( T 1 ∣ D c ) P ( D c ) ≈ 0.16 第二次测试 这里需要注意的是,由于第一次测试已经将先验 P ( D ) 更新为后验 P ( D ∣ T 1 ) ,所以在代入贝叶斯准则时要注意, 同时我们求的并不是 P ( D ∣ T 2 ) 而是 P ( D ∣ T 1 ∩ T 2 ) ,因为在确定患者是否患病上第一次检验为阳性的条件并不能忽略 所以根据条件贝叶斯准则 P ( D ∣ T 1 ∩ T 2 ) = P ( D ∩ T 1 ∩ T 2 ) P ( T 1 ∩ T 2 ) = P ( T 2 ∣ D , T 1 ) P ( D ∣ T 1 ) P ( T 1 ) P ( T 2 ∣ T 1 ) P ( T 1 ) = P ( T 2 ∣ D , T 1 ) P ( D ∣ T 1 ) P ( T 2 ∣ D , T 1 ) P ( D ∣ T 1 ) + P ( T 2 ∣ D c , T 1 ) P ( D c ∣ T 1 ) 按照上面的式子可以计算出两次检测显阳性的患病概率,但是分母计算过于繁琐,如果后面追加检验,那么分母部分将会变得相当庞大和难以计算,所以一般是使用几率的贝叶斯形式来求解。 P ( D ∣ T 1 ∩ T 2 ) P ( D c ∣ T 1 ∩ T 2 ) = P ( T 2 ∣ D , T 1 ) P ( D ∣ T 1 ) P ( T 2 ∣ D c , T 1 ) P ( D c ∣ T 1 ) = ( 1 99 ⋅ 0.95 0.05 ) ⋅ 0.95 0.05 ≈ 3.646 ⟹ P ( D ∣ T 1 ∩ T 2 ) = 3.646 / ( 1 + 3.646 ) ≈ 0.78 如果将每一次检测用几率形式表示出来 , 在测试连续出现阳性结果时会有这么一个规律 第一次阳性 j 1 = P ( D ∣ T 1 ) P ( D c ∣ T 1 ) = P ( D ) P ( T 1 ∣ D ) P ( D c ) P ( T 1 ∣ D c ) = 1 99 ⋅ 0.95 0.05 ≈ 0.19 第二次阳性 j 2 = P ( D ∣ T 1 ∩ T 2 ) P ( D c ∣ T 1 ∩ T 2 ) = P ( T 2 ∣ D , T 1 ) P ( D ∣ T 1 ) P ( T 2 ∣ D c , T 1 ) P ( D c ∣ T 1 ) = ( 1 99 ⋅ 0.95 0.05 ) ⋅ 0.95 0.05 ≈ 3.646 第三次阳性 j 3 = P ( D ∣ T 1 , T 2 , T 3 ) P ( D c ∣ T 1 , T 2 , T 3 ) = P ( T 3 ∣ D , T 1 , T 2 ) P ( D ∣ T 1 , T 2 ) P ( T 3 ∣ D c , T 1 , T 2 ) P ( D c ∣ T 1 , T 2 ) = ( 1 99 ⋅ 0.95 0.05 ) ⋅ 0.95 0.05 ⋅ 0.95 0.05 ≈ 69.274 ⋯ 第 n 次阳性 j n = l i m n → ∞ ( 1 99 ⋅ 1 9 n ) = ∞ 而 P ( D ∣ T 1 , T 2 , … , T n ) = j n 1 + j n = 1 1 j n + 1 = 1 ,所以检测的连续阳性结果越多,就越能够确认患者的确患此病 \begin{aligned} 解 :& 这个其实就是求P(D),首先最重要的一点是检测准确率并不是P(D|T)而是P(T|D)=95\%,\\ &也就是说你必须怀疑自己有病才去做检验,检验才有可能是阳性,但阳性仅仅是阳性并不能引起一个人患病,\\ &引起一个人患病的原因在于体能的病变而不是检测。而对于检测显阳性又有两种可能,一是的确患病显阳性,此为真阳性,\\ &二为假阳性,就是没有患病却显阳性。\\ &第一次测试,根据全概率公式\\ &\qquad \qquad \qquad \qquad \qquad \qquad P(T_1)=P(T_1|D)P(D)+P(T_1|D^c)P(D^c)\\ &于是又根据贝叶斯准则P(D|T_1)=\frac{P(T_1|D)P(D)}{P(T_1|D)P(D)+P(T_1|D^c)P(D^c)}\approx 0.16\\ &第二次测试\\ &这里需要注意的是,由于第一次测试已经将先验P(D)更新为后验P(D|T_1),所以在代入贝叶斯准则时要注意,\\ &同时我们求的并不是P(D|T_2)而是P(D|T_1 \cap T_2),因为在确定患者是否患病上第一次检验为阳性的条件并不能忽略\\ &所以根据条件贝叶斯准则P(D|T_1\cap T_2)=\frac{P(D\cap T_1\cap T_2)}{P(T_1\cap T_2)}=\frac{P(T_2|D,T_1)P(D|T_1)P(T_1)}{P(T_2|T_1)P(T_1)}=\frac{P(T_2|D,T_1)P(D|T_1)}{P(T_2|D,T_1)P(D|T_1)+P(T_2|D^c,T_1)P(D^c|T_1)}\\ &按照上面的式子可以计算出两次检测显阳性的患病概率,但是分母计算过于繁琐,如果后面追加检验,那么分母部分将会变得相当庞大和难以计算,所以一般是使用几率的贝叶斯形式来求解。\\ &\frac{P(D|T_1\cap T_2)}{P(D^c|T_1\cap T_2)}=\frac{P(T_2|D,T_1)P(D|T_1)}{P(T_2|D^c,T_1)P(D^c|T_1)}=(\frac{1}{99}\cdot \frac{0.95}{0.05})\cdot \frac{0.95}{0.05}\approx 3.646\implies P(D|T_1\cap T_2)=3.646 / (1 +3.646) \approx 0.78\\ &如果将每一次检测用几率形式表示出来,在测试连续出现阳性结果时会有这么一个规律\\ &第一次阳性\quad j_1=\frac{P(D|T_1)}{P(D^c|T_1)}=\frac{P(D)P(T_1|D)}{P(D^c)P(T_1|D^c)}=\frac{1}{99}\cdot \frac{0.95}{0.05}\approx 0.19\\ &第二次阳性\quad j_2=\frac{P(D|T_1\cap T_2)}{P(D^c|T_1\cap T_2)}=\frac{P(T_2|D,T_1)P(D|T_1)}{P(T_2|D^c,T_1)P(D^c|T_1)}=(\frac{1}{99}\cdot \frac{0.95}{0.05})\cdot \frac{0.95}{0.05}\approx 3.646\\ &第三次阳性\quad j_3=\frac{P(D|T_1,T_2,T_3)}{P(D^c|T_1,T_2,T_3)}=\frac{P(T_3|D,T_1,T_2)P(D|T_1,T_2)}{P(T_3|D^c,T_1,T_2)P(D^c|T_1,T_2)}=(\frac{1}{99}\cdot \frac{0.95}{0.05})\cdot \frac{0.95}{0.05}\cdot \frac{0.95}{0.05} \approx 69.274\\ &\cdots\\ &第n次阳性\quad j_n = \underset{n\to \infty}{lim}(\frac{1}{99}\cdot19^n)= \infty\\ &而P(D|T_1,T_2,\ldots,T_n) = \frac{j_n}{1+j_n}=\frac{1}{\frac{1}{j_n}+1}=1,所以检测的连续阳性结果越多,就越能够确认患者的确患此病 \end{aligned} 解:这个其实就是求P(D),首先最重要的一点是检测准确率并不是P(D∣T)而是P(T∣D)=95%,也就是说你必须怀疑自己有病才去做检验,检验才有可能是阳性,但阳性仅仅是阳性并不能引起一个人患病,引起一个人患病的原因在于体能的病变而不是检测。而对于检测显阳性又有两种可能,一是的确患病显阳性,此为真阳性,二为假阳性,就是没有患病却显阳性。第一次测试,根据全概率公式P(T1)=P(T1∣D)P(D)+P(T1∣Dc)P(Dc)于是又根据贝叶斯准则P(D∣T1)=P(T1∣D)P(D)+P(T1∣Dc)P(Dc)P(T1∣D)P(D)≈0.16第二次测试这里需要注意的是,由于第一次测试已经将先验P(D)更新为后验P(D∣T1),所以在代入贝叶斯准则时要注意,同时我们求的并不是P(D∣T2)而是P(D∣T1∩T2),因为在确定患者是否患病上第一次检验为阳性的条件并不能忽略所以根据条件贝叶斯准则P(D∣T1∩T2)=P(T1∩T2)P(D∩T1∩T2)=P(T2∣T1)P(T1)P(T2∣D,T1)P(D∣T1)P(T1)=P(T2∣D,T1)P(D∣T1)+P(T2∣Dc,T1)P(Dc∣T1)P(T2∣D,T1)P(D∣T1)按照上面的式子可以计算出两次检测显阳性的患病概率,但是分母计算过于繁琐,如果后面追加检验,那么分母部分将会变得相当庞大和难以计算,所以一般是使用几率的贝叶斯形式来求解。P(Dc∣T1∩T2)P(D∣T1∩T2)=P(T2∣Dc,T1)P(Dc∣T1)P(T2∣D,T1)P(D∣T1)=(991⋅0.050.95)⋅0.050.95≈3.646⟹P(D∣T1∩T2)=3.646/(1+3.646)≈0.78如果将每一次检测用几率形式表示出来,在测试连续出现阳性结果时会有这么一个规律第一次阳性j1=P(Dc∣T1)P(D∣T1)=P(Dc)P(T1∣Dc)P(D)P(T1∣D)=991⋅0.050.95≈0.19第二次阳性j2=P(Dc∣T1∩T2)P(D∣T1∩T2)=P(T2∣Dc,T1)P(Dc∣T1)P(T2∣D,T1)P(D∣T1)=(991⋅0.050.95)⋅0.050.95≈3.646第三次阳性j3=P(Dc∣T1,T2,T3)P(D∣T1,T2,T3)=P(T3∣Dc,T1,T2)P(Dc∣T1,T2)P(T3∣D,T1,T2)P(D∣T1,T2)=(991⋅0.050.95)⋅0.050.95⋅0.050.95≈69.274⋯第n次阳性jn=n→∞lim(991⋅19n)=∞而P(D∣T1,T2,…,Tn)=1+jnjn=jn1+11=1,所以检测的连续阳性结果越多,就越能够确认患者的确患此病