机器翻译 = 语言模型 + 翻译模型
语言模型如:N元语言模型
N元语言模型
举例,三元语言模型,一个词至于它相邻的2个词有关。
条件概率
P(我吃饭)表示词语组合合理的概率。
P(我吃饭)= P(饭|我吃)*P(我吃)
P(我吃) = P( 吃|我)*P(我)
得到:
P(我吃饭)= P(饭|我吃)*P(吃|我)*p(我);
基础统计概率这样得到:
[统计词频得到]
P(我)= C(我)/C(X) ;
P(吃|我)= C(我X)/ C(我吃)
P(饭|我吃)= C(我吃饭)/ C(我吃X)
在语音识别或者OCR中,如果识别三个字,前两个识别为我吃,
单从第三个字的声音来看,有40%的概率识别为“饭”,有50%的概率识别为“蛋”。
但是P(饭 | 我吃)的概率为50%,P(蛋|我吃)的概率为10%。
综合考虑:
P(我吃饭)= P(饭)* P(饭 | 我吃)=40%*50%
P(我吃蛋)= P(蛋)* P(蛋|我吃) =50%*10%
所以该字被翻译成饭更合适一些。