贝叶斯拼写检查器

利用朴素贝叶斯实现简单拼写检查器

个人理解:
思路:
人们通常将单词写错会有四种形式:多字母,少字母,错字母,相邻字母顺序写错。
而这四种形式将单词写错的过程是可逆的,也就是正确的单词放进去会变成错词。
同样将错词放入也会在返回的集合中找到正确的词,根据这样的特性就能实现拼写检查。

注:如上述,小道愚昧,并未看出代码的思想与贝叶斯有关,望高人看到指点一二,小道感激不尽!

import re 
import collections
# 将语料库中字母转换为小写,并匹配所有字母
def words(text):
    return re.findall('[a-z]+',text.lower())
# 遇到新单词设置默认词频率,并统计词频
def train(features):
    model=collections.defaultdict(lambda: 1) # 创建一个默认值为1的字典
    for f in features:
        model[f]+=1
    return model
# 导入语料库返回一个字典,单词为键,值为词频率
NWORDS=train(words(open('big.txt',encoding='utf-8').read()))
# 建立一个字母表
alphabet='abcdefghijklmnopqrstuvwxyz'
def edits1(word):
    splits=[]
    # 将单词切成a,b两部分,并传入splits
    # 如:the: ('',the) (t,he) (th,e) (the,'')
    for i in range(len(word)+1):
        splits.append((word[:i],word[i:])) # word[:i]切片第i个元素之前所有元素
                                           # word[i:]切片第i个元素及之后所有元素
                                           # word[a:b]切片[a,b)
    # 单词少写一个字母的可能性
    deletes=[a+b[1:] for a,b in splits if b]
    
    # 单词多写一个字母的可能性
    inserts=[a+c+b for a,b in splits for c in alphabet]
   
    # 单词写错一个字母的可能性
    replaces=[a+c+b[1:] for a,b in splits for c in alphabet if b]
   
    # 单词相邻字母顺序写错的可能性
    transposes=[a+b[1]+b[0]+b[2:] for a,b in splits if len(b)>1]
    
    # 返回一个无序的写错单词的可能性集合(编辑距离为1)
    return set(deletes+transposes+replaces+inserts)
def known_edits2(word):
    # 返回一个无序的写错单词的可能性集合,并包含在语料库中(在1的基础上,编辑距离为2)
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
def known(words): 
    # 乱序返回包含在语料库中的所有单词
    return set(w for w in words if w in NWORDS)
def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    # 返回出现词频最多的单词
    return max(candidates,key=NWORDS.get)
# 测试结果
data=correct('tha')
print(data)
the
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值