理解贝叶斯公式
在提贝叶斯之前,出现一个条件概率。P(A|B) 意思是在B情况下,发生A事件的概率是多少。
有时候,在B发生情况下,求发生A的概率是是难以计算的。可以试试通过另一种方式进行求解。
那么此时提出贝叶斯定理 P(A|B) =
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
\frac{P (B|A) P(A)} {P(B)}
P(B)P(B∣A)P(A)
在没理解这个公式之前,我一直记不住公式,如果通过下图的几何方法去理解的方法,效果应该会很不错。贝叶斯定理可以通过条件概率很容易记住,如下图
P(AB) 就是 AB两种事件同时发生的概率,可以得出在B情况下,发生A事件的概率
P(A|B) =
P
(
A
B
)
P
(
B
)
\frac {P(AB)}{P(B)}
P(B)P(AB)
通过关系式可以得出 P(AB) = P (B|A) P(A)
P (B|A) P(A) 这个式子也可以这样理解,在A发生的所有情况里就是那个 淡红色 圆圈,出现B情况;通过P(B|A)与P(A)乘积得到P(AB)的值。
那么 P(A|B) =
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
\frac{P (B|A) P(A)} {P(B)}
P(B)P(B∣A)P(A) =
P
(
A
B
)
P
(
B
)
\frac{P(AB)} {P(B)}
P(B)P(AB)就很容易理解了。
贝叶斯历时解释
解释一下贝叶斯历时,如上图;随着时间的推移,在B事件发生变化时随之会更新A事件发生的概率,这个就是贝叶斯历时。
贝叶斯使用案例
在输入一个 W 如果是一个错误的情况下,按照我们纠正的思维:我们一般通过查找会选择好几个候选的正确单词。在这些正确的单词中间选择一个概率最大的候选单词就是这个错误的 W
贝叶斯拼写检查,该案例使用到了贝叶斯的思想:在输入一个单词 W,情况下出现正确单词C 最大概率。
该概率模型为 argMax{
p
(
c
∣
w
)
p(c|w)
p(c∣w) } = argMax{
p
(
w
∣
c
)
p
(
c
)
p
(
w
)
\frac {p(w|c)p(c)} {p(w)}
p(w)p(w∣c)p(c) }
既然是求解
p
(
c
∣
w
)
p(c|w)
p(c∣w) 最大值,因为
p
(
w
)
p(w)
p(w)是一个固定值,分母
p
(
w
)
p(w)
p(w) 可以省略。我们关注
p
(
w
∣
c
)
p
(
c
)
p(w|c)p(c)
p(w∣c)p(c) 就可以了。
p
(
c
)
p(c)
p(c) 表示 当前正确单词C在大文本的统计中所占的统计频率
p
(
w
∣
c
)
p(w|c)
p(w∣c) 为在输入一个正确单词C情况下,出现刚刚输入单词W的概率是多少;通常来说这个也是不好求解的。比如我想输入一个单词 hello 出现 hwllo 的概率是多少,这个就目前情况来看还不好统计。
所以我们的求解卡住在
p
(
w
∣
c
)
p(w|c)
p(w∣c),如果能够解决
p
(
w
∣
c
)
p(w|c)
p(w∣c)求解表示问题。那么这个拼写检查就是一个真正的概率统计模型。
在这篇文章中 如何编写一个拼写检查器,该文章的作者提出了解决
p
(
w
∣
c
)
p(w|c)
p(w∣c) 的问题。应用到了编辑距离的问题,他是这样做的,编辑距离越小
p
(
w
∣
c
)
p(w|c)
p(w∣c)越大。
验证思想:如果
p
(
c
)
p(c)
p(c)值相同,需要判断
p
(
w
∣
c
)
p(w|c)
p(w∣c) 的大小;如果
p
(
w
∣
c
)
p(w|c)
p(w∣c)表示编辑距离相同的情况下,查看
p
(
c
)
p(c)
p(c)不同之处。
正如:我想输入hello出现 hwllo 和 hel 的概率,那么需要求解 hwllo 到 hello编辑距离 和 hel到hello编辑距离,来作为
p
(
w
∣
c
)
p(w|c)
p(w∣c) 的值。
hwllo 到 hello编辑距离 为1 ;
hel 到 hello编辑距离 为2 ;
所以 hwllo 的
p
(
w
∣
c
)
p(w|c)
p(w∣c) 大于 hel的
p
(
w
∣
c
)
p(w|c)
p(w∣c) ;同理 hwllo 的
p
(
w
∣
c
)
p
(
c
)
p(w|c)p(c)
p(w∣c)p(c) 大于 hel的
p
(
w
∣
c
)
p
(
c
)
p(w|c)p(c)
p(w∣c)p(c) 。
根据上面的情况,如果编辑距离相等,
p
(
w
∣
c
)
p(w|c)
p(w∣c)的值会相等;此时我们可以通过
p
(
c
)
p(c)
p(c)来计算并判别出
p
(
w
∣
c
)
p
(
c
)
p(w|c)p(c)
p(w∣c)p(c) 的最大值 。
再次说明:
p
(
c
)
p(c)
p(c) 当前正确单词C在大文本的统计中所占的统计频率,
p
(
c
)
p(c)
p(c)是一个已知的值。
如上,通过编辑距离和正确单词C所在大文本的频率 p ( c ) p(c) p(c),把问题分成了两个步骤,这样就很容易求解到了 argMax{ p ( c ∣ w ) p(c|w) p(c∣w) } 的概率了。
水平有限,难以避免出现错误;请指出,谢谢!