python实现贝叶斯拼写检查

最新推荐文章于 2022-06-04 17:39:43 发布

灵跃115

最新推荐文章于 2022-06-04 17:39:43 发布

阅读量398

点赞数

本文链接：https://blog.csdn.net/wang_ningning/article/details/105972705

版权

贝叶斯：英国数学家

贝叶斯方法解决“逆概”问题。

贝叶斯公式：

拼写纠正实例：假如用户输入的是错误的D，那用户真正想要输入的是哪个单词呢？可能的是h1，也可能是h2，...,hn

那每种情况出现的概率是P（h1|D），P（h2|D），...,P（hn|D）统一为P（h|D）。

P(h|D)=P(h)*P(D/h)/P(D)

模型比较理论：

最大似然：最符合观测数据（P(D|h)）的最有优势

奥卡姆剃刀：P（h）较大的模型有较大的优势

最大似然：当我们投一枚硬币，当时正面的时候，正面的概率是1，那就说下次出现正面的概率是100%

奥卡姆剃刀：有n个点拟合数据，一阶多项式穿过一些点，二阶穿过更多的点，三阶，n阶，那么哪个模型最靠谱呢？越是高阶的模型越是不常见。

贝叶斯拼写检查器：

import re, collections
 
def words(text): return re.findall('[a-z]+', text.lower()) 
 
def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model
 
NWORDS = train(words(open('big.txt').read()))
 
alphabet = 'abcdefghijklmnopqrstuvwxyz'
 
def edits1(word):
    n = len(word)
    return set([word[0:i]+word[i+1:] for i in range(n)] +                     # deletion
               [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)] + # transposition
               [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] + # alteration
               [word[0:i]+c+word[i:] for i in range(n+1) for c in alphabet])  # insertion
 
def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
 
def known(words): return set(w for w in words if w in NWORDS)
 
def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=lambda w: NWORDS[w])

调用correct（）结果如下：

灵跃115

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python实现贝叶斯拼写检查

贝叶斯：英国数学家贝叶斯方法解决“逆概”问题。贝叶斯公式：拼写纠正实例：假如用户输入的是错误的D，那用户真正想要输入的是哪个单词呢？可能的是h1，也可能是h2，...,hn那每种情况出现的概率是P（h1|D），P（h2|D），...,P（hn|D）统一为P（h|D）。P(h|D)=P(h)*P(D/h)/P(D)模型比较理论：最大似然：最符合观测数据（P(D|h)...
复制链接

扫一扫