对于从事统计自然语言处理来说,了解概率论、信息论以及语言学知识都是很有必要的。
下面内容主要介绍了在统计自然语言处理中需要了解的概率论基础。
概率
如果P(A)作为事件A的概率,Ω是试验的样本空间,则概率函数满足下面三条公理:
- 非负性 P(A) >= 0
- 规范性 P(Ω) = 1
- 可列可加性:对于不相交的集合Aj ∈F
条件概率和独立性
假设事件B的概率已知,那么事件A发生的条件概率为(P(B) > 0):
在统计自然语言处理中,上面那个链式法则很有用处,比如推导马尔可夫模型的性质。
贝叶斯定理
由条件概率和链式规则推得: