本系列主要是贝叶斯机器学习相关知识的学习笔记。
第一讲:概率论回顾,贝叶斯公式,共轭先验
- “贝叶斯规则” 是来自于对于概率分布的一些基本操作。下面举一个简单的例子
例子

整个空间是 Ω \Omega Ω, A i A_i Ai 是第i列(随便定义的), B i B_i Bi 是第i行(同理,随便定义的)
- 在这个空间里分布着一些点。我们随机的且均匀的从这些点里取出一个点。
- 那么这个概率计算是一个简单的数数。
P ( x ∈ A 1 ) = # A 1 # Ω , P ( x ∈ B 1 ) = # B 1 # Ω P(x \in A_1)=\frac{\#A_1}{\#\Omega}, P(x \in B_1)=\frac{\#B_1}{\#\Omega} P(x∈A1)=#Ω#A1,P(x∈B1)=#Ω#B1 - 那 P ( x ∈ A 1 ∣ x ∈ B 1 ) P(x \in A_1 |x \in B_1) P(x∈A1∣x∈B1)表示什么呢?它表示在已知该点属于 B 1 B_1 B1的情况下,它属于 A 1 A_1 A1的概率。这就是 条件概率。
P ( x ∈ A 1 ∣ x ∈ B 1 ) = # ( A 1 ∩ B 1 ) # B 1 = # ( A 1 ∩ B 1 ) # Ω # Ω # B 1 = P ( x ∈ A 1 & x ∈ B 1 ) P ( x ∈ B 1 ) P(x \in A_1|x \in B_1)=\frac{\#(A_1 \cap B_1)}{\#B_1}=\frac{\#(A_1 \cap B_1)}{\#\Omega}\frac{\#\Omega}{\#B_1}=\frac{P(x \in A_1 \& x \in B_1)}{P(x \in B_1)} P(x∈A1∣x∈B1)=#B1#(A1∩B1)=#Ω#(A1∩B1)#B1#Ω=P(x∈B1)P(x∈A1&x∈B1)
更一般的表述
- A A A和 B B B代表两个事件,然后
P ( A ∣ B ) = P ( A , B ) P ( B ) ⇒ P ( A ∣ B ) P ( B ) = P ( A , B ) P(A|B)=\frac{P(A,B)}{P(B)} \Rightarrow P(A|B)P(B)=P(A,B) P(A∣B)=P(B)P(A,B)⇒P(A∣B)P(B)=P(A,B) - 对于上述的一些符号,我们有如下命名,
P ( A ∣ B ) P(A|B) P(A∣B):条件概率
P ( A , B ) P(A,B) P(A,B):联合概率
P ( B ) P(B) P(B):边缘概率 - 这最后一个听起来似乎不是很好理解,因为它仅仅是“B的概率”。我们可以通过之前同样数数的方式来解释 P ( B ) P(B) P(B)作为概率是如果通过整合(边缘化)来得到的。
P ( B ) = # B # Ω = ∑ i = 1 3 # ( A i ∩ B ) # Ω = ∑ i = 1 3 # ( A i ∩ B ) # Ω = ∑ i = 1 3 P ( A i , B ) P(B) = \frac{\# B}{\#\Omega}=\frac{\sum^3_{i=1}\#(A_i \cap B)}{\#\Omega}=\sum^3_{i=1}\frac{\#(A_i \cap B)}{\# \Omega}=\sum^3_{i=1}P(A_i,B) P(B)=#Ω#B=#Ω∑i=13#(Ai∩B)=i=1∑3#Ω#(Ai∩B)=i=1∑3P(Ai,B) - 一般而言,这个求和以及对于每个 A i A_i Ai都是有严格的要求的。要求彼此没有交集而且它们的并集等于整个空间( Ω \Omega Ω)。
贝叶斯规则
- 我们简单的从几步来推导一下
P ( A , B ) = P ( A ∣ B ) P ( B ) P(A,B)=P(A|B)P(B) P(A,B)=P(A∣B)P(B)
由对称性我们有
P ( A , B ) = P ( B ∣ A ) P ( A ) P(A,B)=P(B|A)P(A) P(A,B)=P(B∣A)P(A)
因此
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) = P ( B ∣ A ) P ( A ) ∑ i P ( A i , B ) = P ( B ∣ A ) P ( A ) ∑ i P ( B
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=87569721&d=1&t=3&u=7992a5155a7f429c96e9330cb4b3a615)
3292

被折叠的 条评论
为什么被折叠?



