拼写纠错算法详解-CSDN博客

本文链接：https://blog.csdn.net/qq_40859560/article/details/107973882

一、详细过程

拼写纠错任务目标是找到概率最大的 p(correct|incorrect)比如：incorrect='appl'，而correct 可以为任何词，我们的目的就是要找到哪个词作为correct时，能使的p(correct|incorrect)最大，但是，当没有任何日志的时候，我们无法直接得到max(p(correct|incorrect)),因此可以根据贝叶斯定律：

p(correct|incorrect)=p(incorrect|correct)*p(correct)

那么求max(p(correct|incorrect))就变成求max(p(incorrect|correct)*p(correct))，理论我们要计算所有的词写成appl的概率，显然这个是不现实，根据先验知识，哪些词较大概率写成appl呢？，当然是和appl编辑距离为1的单词，所以我们可以把与appl编辑距离为1的单词列举出来并过滤到不是正确单词的词，作为候选集（相当于推荐中的召回，从所有的单词中，召回编辑距离为1的单词）。

在没有日志前，可以把所有编辑距离为1的单词的写错成appl的概率认为相同的，那么p(correct)最大，那么这个correct就是最可能是appl对应的正确的词。

关键是p(correct)是怎么计算的到的呢？

p(correct)计算需要通过语言模型，语言模型可以通过语料统计而来，uigram语言模型就是能计算p(word)

的概率（其实就是根据词频），而bigram语言模型就是能计算p(word1|word2)的概率，同理trigram，就是能计算p(word1|word2,word3)的概率，举个例子：

假如我们的语料库是：I like it, beacuse it is very interesting.

根据这个语料库，我们得到的uigram模型是：p(word)=每个单词出现的次数/语料库总词数

得到的bigram模型：p(word1|word2)=每个单词word1出现在word2之后的次数/word1在语料库出现的总次数

比如：p(it|like)=1/2而 p(like|I)=1

那么言归正传 p(correct)的计算，就是根据已经训练好的模型，依次计算每个候选的correct单词的P（correct）,假如是采用uigram模型，那就是计算哪个correct单词在语料库出现的次数多，哪个就是最可能正确的单词，显然这种不是很准，我们一般采用bigram或trigram语言模型来计算p(correct)，也就是我们要考虑appl之前是什么单词，如果前一个单词是乔布斯，则就是计算p（correct|乔布斯），根据语言模型得到哪个候选correct最大。