python实现拼写检查器(唐宇迪机器学习实战视频)

简易拼写检查器

原理

根据朴素贝叶斯实现。

贝叶斯公式:  p(c|x)=p(c)*p(x|c)/p(x)

h代表猜测的要输入的单词 D实际输入的单词

p(h|D)=p(h)*p(D|h)/p(D)

p(D)可以不考虑,因为每次输入的单词和结果没有关系。

p(h|D)根p(h)和p(D|h)有关

p(h)先验概率(词频)

p(D|h)根据键盘上距离的来定

代码实现

需要导入

import re,collections
  1. 需要读取一个big.txt文本作为词库(只是几篇英文的文章)
    # 把单词抽取出来,转化成小写,并且去除特殊符号
    def words(text): return re.findall('[a-z]+',text.lower())
    def train(features):
        model=collections.defaultdict(lambda :1)
        for f in features:
            model[f]+=1
        return model
    NWORDS=train(words(open("big.txt").read()))

    lambda的意思是:设置出现的最小出现的次数为1。这样输入新的单词先验概率不为0,如果为先验概率不为0的话,输入新单词就永远不可能出现。

  2. 计算p(D|h) (只经一次变化就是单词距离为1)

    alphabet="abcdefghijklmnopqrstuvwxyz"
    #返回所有与单词距离为1 的集合
    def edits1(word):
        n=len(word)
        return set([word[0:i]+word[i+1:] for i in range(n)]+
                   [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+
                   [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+
                   [word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet]     #增删改等操作
                   )  
    #返回所有距离为2的集合
    #只返回正确的单词
    def deits2(word):
        return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
    

     

  3. 设置优先级,最后返回概率最大的单词

    def known(words): return set(w for w in words if w in NWORDS)
    def correct(word):
        candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]
        return max(candiates,key=lambda w: NWORDS[w])

     

测试效果:

a=correct("appla")
print a

输入appla

整体代码:

# -*- coding: UTF-8 -*-
import re,collections
# 把单词抽取出来,转化成小写,并且去除特殊符号
def words(text): return re.findall('[a-z]+',text.lower())
def train(features):
    model=collections.defaultdict(lambda :1)
    for f in features:
        model[f]+=1
    return model
NWORDS=train(words(open("big.txt").read()))

alphabet="abcdefghijklmnopqrstuvwxyz"
#返回所有与单词距离为1 的集合
def edits1(word):
    n=len(word)
    return set([word[0:i]+word[i+1:] for i in range(n)]+
               [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+
               [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+
               [word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet]
               )
#返回所有距离为2的集合
#只返回正确的单词
def deits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
def known(words): return set(w for w in words if w in NWORDS)
def correct(word):
    candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]
    return max(candiates,key=lambda w: NWORDS[w])
a=correct("appla")
print a

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值