求解:argmaxc P(c|w) -> argmaxc P(w|c) P© / P(w)
- P©, 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大
- P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 w
- argmaxc, 用来枚举所有可能的 c 并且选取概率最大的
读取语料库
import re,collections
text = open('./ylk.txt').read()
text
全部改为小写字母并进行词频统计
texts = re.findall