贝叶斯拼写检查器

最新推荐文章于 2024-07-20 15:51:46 发布

MercuryG

最新推荐文章于 2024-07-20 15:51:46 发布

阅读量231

点赞数

本文链接：https://blog.csdn.net/MercuryG/article/details/102609433

版权

import re, collections
 
def words(text): return re.findall('[a-z]+', text.lower()) 
 
def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model
 
NWORDS = train(words(open('big.txt').read()))
 
alphabet = 'abcdefghijklmnopqrstuvwxyz'
 
def edits1(word):
    n = len(word)
    return set([word[0:i]+word[i+1:] for i in range(n)] +                     # deletion
               [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)] + # transposition
               [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] + # alteration
               [word[0:i]+c+word[i:] for i in range(n+1) for c in alphabet])  # insertion
 
def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
 
def known(words): return set(w for w in words if w in NWORDS)
 
def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=lambda w: NWORDS[w])

步骤

在这里插入图片描述

①P( c ),文章中出现一个正确拼写词c的概率，也就是说，在一篇英语文章中，c出现的概率有多大

②P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 w

③argmaxc, 用来枚举所有可能的 c 并且选取概率最大的

①读取语料库，求取先验概率

#把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号
def words(text): return re.findall('[a-z]+', text.lower()) 
 
 #运用以一个匿名函数表示所有的词统计完之后最小的出现次数是一次
def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model
    
 #“big.txt”是语料库
NWORDS = train(words(open('big.txt').read()))

要是遇到一个没有见过的新词，加入这个词正确，但语料库中没有包含这个词(先验概率就为0)，从而这个词也不会在训练集中，我们返回出这个词的概率是0，这样的情况是不行的，而在我们的概率模型中，用一个很小的概率来表示这种情况。lambda:1

运行这段之后会生成一个字典结构，在当中会统计出所有的词频，即得出了先验概率
在这里插入图片描述

②求P(w|c)的概率

编辑距离：

两个词之间的编辑距离定义为是用了几次插入（在词中间插入一个单字母），删除（删除一个单字母），交换（交换相邻两个单字母），替换（把一个字母换成里另一个）的操作从一个变到另一个词

#返回所有与单词 w 编辑距离为 1 的集合
def edits1(word):
    n = len(word)
    return set([word[0:i]+word[i+1:] for i in range(n)] +                     # 删除
               [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)] + # 换位
               [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] + # 替换
               [word[0:i]+c+word[i:] for i in range(n+1) for c in alphabet])  # 插入

编辑距离为2实质是在编辑距离为1上再做一次循环

#返回所有与单词 w 编辑距离为 2 的集合
#在这些编辑距离小于2的词中间, 只把那些正确的词作为候选词
def edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1))

def known(words): return set(w for w in words if w in NWORDS)

#如果known(set)非空, candidate 就会选取这个集合, 而不继续计算后面的
def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=lambda w: NWORDS[w])