一、什么是拼写纠错
根据两个单词的编辑距离,计算相似度。可以将错误的单词改正。
编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
那么,如何用Python计算编辑距离呢?我们可以从较为简单的情况进行分析。
当两个字符串都为空串,那么编辑距离为0;
当其中一个字符串为空串时,那么编辑距离为另一个非空字符串的长度;
当两个字符串均为非空时(长度分别为 i 和 j ),取以下三种情况最小值即可:
1、长度分别为 i-1 和 j 的字符串的编辑距离已知,那么加1即可;
2、长度分别为 i 和 j-1 的字符串的编辑距离已知,那么加1即可;
3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知,此时考虑两种情况,若第i个字符和第j个字符不同,那么 加1即可;如果不同,那么不需要加1。
很明显,上述算法的思想即为动态规划
还有一个问题就是:这个单词跟词典库里面所有单词都比对一次么??
改进:不要跟所有单词库里面的单词都比较一次,而是生成编辑距离1,2的字符串。
过滤:比如一个单词正确的是apple,用户输入错误成了applea
根据公式可以看到,求在输入的基础上更正为正确字符串的概率 = P(s|c) P©
P(s|c):是在正确的基础之上,出现错误的概率。也就是这个正确的单词,被多少人写错的的概率。(左上角)
P(c):是正确的概率。也就是apple在一个统计文本库当中出现的次数。
二、编辑距离算法
- 最简单的方法:
pip install python-Levenshtein //编辑距离依赖包
import Levenshtein
print(Levenshtein.distance("cape","cat"))
texta = u'艾伦 图灵传'
textb = u'艾伦•图灵传'
print(Levenshtein.distance(texta,textb))
- 自己实现
基于动态规划 1、长度分别为 i-1 和 j 的字符串的编辑距离已知,那么加1即可; 2、长度分别为 i 和 j-1
的字符串的编辑距离已知,那么加1即可; 3、长度分别为 i-1 和 j-1
的字符串的编辑距离已知,此时考虑两种情况,若第i个字符和第j个字符不同,那么 加1即可;如果相同,那么不需要加1。
需要一个二维数组保存 i,j 的编辑距离
int edit_dist_1(string str_01, string str_02){
int len_01 = str_01.length();
int len_02 = str_02.length();
int i = 0;
int j = 0;
int temp[len_01][len_02]; //保存中间结果
while(i < len_01){
temp[i][0] = i;
i++;
}<