一、概率论基础
语言统计中常常会用到概率论知识,常用到的是概率、转移概率、条件概率。概率的概念这里不再描述。
1.转移概率
转移概率是指从一个状态到另一个状态的概率,实际上是一种特殊的条件概率,即规定了邻接顺序的条件概率。
举例说明:
从“中国”转移到“人民”的概率为 P ( W 2 = “ 人 民 ” ∣ W 1 = “ 中 国 ” ) P(W_2=“人民”|W_1=“中国”) P(W2=“人民”∣W1=“中国”),可估计为“中国人民”的出现次数除以“中国”的出现次数。
类似地,从名词转移到动词的概率是 P ( T 2 = 动 词 ∣ T 1 = 名 词 ) P(T_2=动词|T_1=名词) P(T2=动词∣T1=名词),可估计为名词和动词相邻出现的次数除以名词出现的次数。
2. 条件概率
条件概率不限于先后发生的事件。
举例说明:
P ( W i = “ 设 计 ” ∣ T i = “ 名 词 ” ) P(W_i=“设计”|T_i=“名词”) P(Wi=“设计”∣Ti=“名词”)表示在在某词为名词的条件下,其词形是“设计”的概率,当事件和作为条件的事件是同时发生的,应该看作是条件概率而不是转移概率。求这个条件概率,可以用语料库中作为名词出现的“设计”的出现次数除以所有名词出现的次数。
而 P ( W i = 名 词 ∣ T i = “ 设 计 ” ) P(W_i=名词|T_i=“设计”) P(Wi=名词∣Ti=“设计”)表示某词词形为“设计”的条件下,其词性为名词的概率,这是可以用语料库中名词“设计”的出现次数除以以任何词性出现词形为“设计”的次数。
条件可以用下面公式求:
P ( A ∣ B ) = N ( A B ) / N ( B ) P(A|B)=N(AB)/N(B) P(A∣B)=N(AB)/N(B)
即用事件AB发生的次数除以事件B发生的次数
如果已知事件AB、B的概率,可以用:
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(A∣B)=P(AB)/P(