用贝叶斯实现拼写检查器（Python3详细源码可运行）

最新推荐文章于 2024-04-18 12:34:22 发布

大鱼-瓶邪

最新推荐文章于 2024-04-18 12:34:22 发布

阅读量3.3k

点赞数 1

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/qq_25948717/article/details/84501112

版权

Python 同时被 2 个专栏收录

30 篇文章 7 订阅

订阅专栏

机器学习

15 篇文章 10 订阅

订阅专栏

用贝叶斯实现拼写检查器:依据文档总的词的概率计算当前错误输入单词情况下应该正确输入的词。

对于贝叶斯的原理，再次不做过多介绍，建议原理自己推到一遍，根本在于：由果索因。

Python3源码：代码中好多注释已经非常完善，自己找一篇英文文献txt即可。

#!/usr/bin/env python
# encoding: utf-8
"""
@Company：华中科技大学电气学院聚变与等离子研究所
@version: V1.0
@author: Victor
@contact: 1650996069@qq.com or yexin@hust.edu.cn 2018--2020
@software: PyCharm
@file: CheckSpeakAndWrite.py
@time: 2018/11/25 17:59
@Desc：用贝叶斯实现拼写检查器:依据文档总的词的概率计算当前错误输入单词情况下应该正确输入的词
"""

import re, collections

"""求解：argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)
        即对于一个输入单词w，我们要计算他应该正确输入的单词c，并且使这个概率最大：
        什么样的一个c词使当前概率最高。

    P(c), 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大，可直接计算
    P(w|c), 在用户想输入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 w
    argmaxc, 用来枚举所有可能的 c 并且选取概率最大的

"""
##读取文本数据
###把预料中的单词全部抽取出来，转化为小写，并且去掉单词间的特殊符号（比如标点符号啥的）
def words(text): return re.findall('[a-z]+', text.lower())

##词频统计
#输入新词的解决办法： 假如说一个词拼写完全正确, 但是语料库中没有包含这个词, 从而这个词也永远不会出现在训练集中.
# 于是, 我们就要返回出现这个词的概率是0. 这个情况不太妙, 因为概率为0这个代表了这个事件绝对不可能发生,
# 而在我们的概率模型中, 我们期望用一个很小的概率来代表这种情况. lambda: 1
def train(features):
    model = collections.defaultdict(lambda: 1)##model是构造的一个字典，并设置默认情况下对新的key设为1.
    #print(model)
    for f in features:
        model[f] += 1
    #print(model)
    return model

##拿到语料库，NWORDS是字典结构，从而求先验概率
NWORDS = train(words(open('big.txt').read()))

alphabet = 'abcdefghijklmnopqrstuvwxyz'

#P(w|c), 在用户想输入 c 的情况下错误敲成 w 的概率的求解办法：编辑距离
#编辑距离：使用了几次插入(在词中插入一个单字母), 删除(删除一个单字母),
#        交换(交换相邻两个字母), 替换(把一个字母换成另一个)的操作从一个词变到另一个词.
#编辑距离=1：以上某个操作只执行一次
#编辑距离=2：以上某个操作只执行2次

#返回所有与单词 w 编辑距离为 1 的集合
##set集合中可以通过“+”添加元素,元素是元组或者数组或者其他的。用+添加后就连接到一起放到{}中。
def edits1(word):
    n = len(word)
    ##word[0:i] + word[i + 1] + word[i] + word[i + 2:]拼接为新的单词
    return set([word[0:i] + word[i + 1:] for i in range(n)] +  #删除
               [word[0:i] + word[i + 1] + word[i] + word[i + 2:] for i in range(n - 1)] +  # 交换
               [word[0:i] + c + word[i + 1:] for i in range(n) for c in alphabet] +  # 替换
               [word[0:i] + c + word[i:] for i in range(n + 1) for c in alphabet])  # 插入

#返回所有与单词 w 编辑距离为 2 的集合，相当于在边界距离为1的基础上又做了一次循环。
#在这些编辑距离小于2的词中间, 只把那些正确的词作为候选词
def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)


'''正常来说把一个元音拼成另一个的概率要大于辅音 (因为人常常把 hello 打成 hallo 这样); 把单词的第一个字母拼错的概率会相对小, 等等.
但是为了简单起见, 选择了一个简单的方法: 编辑距离为1的正确单词比编辑距离为2的优先级高, 而编辑距离为0的正确单词优先级比编辑距离为1的高.
 编辑距离为0：什么都不改，该单词是正确的，直接返回'''
def known(words): return set(w for w in words if w in NWORDS)


def correct(word):
    ##利用python的高级特性：如果known(set)非空, candidate 就会选取这个集合, 而不继续计算后面的，从而确定优先级。
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    print(candidates)
    return max(candidates, key=lambda w: NWORDS[w])##返回字典中value值最大那个key，将candidates中的每个元素赋值给w进行匿名函数的计算



print(correct('projec'))

结果：