第三章 3、2 文本预处理之拼写纠错（Spell Correction）

最新推荐文章于 2022-07-25 11:16:32 发布

AI_Younger_Man

最新推荐文章于 2022-07-25 11:16:32 发布

阅读量740

点赞数

分类专栏： ● 人工智能 # 自然语言处理 NLP

本文链接：https://blog.csdn.net/qq_38888209/article/details/104413973

版权

本文介绍了拼写纠错的概念，基于编辑距离的算法，以及如何通过动态规划来实现。还提到了在实际应用中如何优化，如生成编辑距离1,2的字符串，以及使用jieba分词工具。" 129072136,10539916,Python实现SVM高光谱图像分类与可视化,"['机器学习', 'Python编程', '图像处理', '数据可视化', '支持向量机']

摘要由CSDN通过智能技术生成

一、什么是拼写纠错

在这里插入图片描述
根据两个单词的编辑距离，计算相似度。可以将错误的单词改正。

编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

那么，如何用Python计算编辑距离呢？我们可以从较为简单的情况进行分析。
当两个字符串都为空串，那么编辑距离为0；
当其中一个字符串为空串时，那么编辑距离为另一个非空字符串的长度；
当两个字符串均为非空时(长度分别为 i 和 j )，取以下三种情况最小值即可：
1、长度分别为 i-1 和 j 的字符串的编辑距离已知，那么加1即可；
2、长度分别为 i 和 j-1 的字符串的编辑距离已知，那么加1即可；
3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知，此时考虑两种情况，若第i个字符和第j个字符不同，那么	加1即可；如果不同，那么不需要加1。
很明显，上述算法的思想即为动态规划

还有一个问题就是：这个单词跟词典库里面所有单词都比对一次么？？
在这里插入图片描述
改进：不要跟所有单词库里面的单词都比较一次，而是生成编辑距离1,2的字符串。

过滤：比如一个单词正确的是apple，用户输入错误成了applea
根据公式可以看到，求在输入的基础上更正为正确字符串的概率 = P(s|c) P©
P(s|c)：是在正确的基础之上，出现错误的概率。也就是这个正确的单词，被多少人写错的的概率。（左上角）
P（c）:是正确的概率。也就是apple在一个统计文本库当中出现的次数。
在这里插入图片描述

二、编辑距离算法

在这里插入图片描述

最简单的方法：

pip install python-Levenshtein //编辑距离依赖包

import Levenshtein
print(Levenshtein.distance("cape","cat"))
texta = u'艾伦 图灵传'
textb = u'艾伦•图灵传'
print(Levenshtein.distance(texta,textb))

自己实现

基于动态规划 1、长度分别为 i-1 和 j 的字符串的编辑距离已知，那么加1即可； 2、长度分别为 i 和 j-1
的字符串的编辑距离已知，那么加1即可； 3、长度分别为 i-1 和 j-1
的字符串的编辑距离已知，此时考虑两种情况，若第i个字符和第j个字符不同，那么加1即可；如果相同，那么不需要加1。
需要一个二维数组保存 i，j 的编辑距离

int edit_dist_1(string str_01, string str_02){
   
	int len_01 = str_01.length();
	int len_02 = str_02.length(); 
	int i = 0;
	int j = 0;
	int temp[len_01][len_02];  //保存中间结果
	while(i < len_01){
   
		temp[i][0] = i;
		i++;
	}<