第三章 3、2 文本预处理之拼写纠错(Spell Correction)

一、什么是拼写纠错

在这里插入图片描述
根据两个单词的编辑距离,计算相似度。可以将错误的单词改正。

编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

那么,如何用Python计算编辑距离呢?我们可以从较为简单的情况进行分析。
当两个字符串都为空串,那么编辑距离为0;
当其中一个字符串为空串时,那么编辑距离为另一个非空字符串的长度;
当两个字符串均为非空时(长度分别为 i 和 j ),取以下三种情况最小值即可:
1、长度分别为 i-1 和 j 的字符串的编辑距离已知,那么加1即可;
2、长度分别为 i 和 j-1 的字符串的编辑距离已知,那么加1即可;
3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知,此时考虑两种情况,若第i个字符和第j个字符不同,那么	加1即可;如果不同,那么不需要加1。
很明显,上述算法的思想即为动态规划

还有一个问题就是:这个单词跟词典库里面所有单词都比对一次么??
在这里插入图片描述
改进:不要跟所有单词库里面的单词都比较一次,而是生成编辑距离1,2的字符串。
在这里插入图片描述
在这里插入图片描述
过滤:比如一个单词正确的是apple,用户输入错误成了applea
根据公式可以看到,求在输入的基础上更正为正确字符串的概率 = P(s|c) P©
P(s|c):是在正确的基础之上,出现错误的概率。也就是这个正确的单词,被多少人写错的的概率。(左上角)
P(c):是正确的概率。也就是apple在一个统计文本库当中出现的次数。
在这里插入图片描述

二、编辑距离算法

在这里插入图片描述

  • 最简单的方法:
pip install python-Levenshtein //编辑距离依赖包

import Levenshtein
print(Levenshtein.distance("cape","cat"))
texta = u'艾伦 图灵传'
textb = u'艾伦•图灵传'
print(Levenshtein.distance(texta,textb))
  • 自己实现

基于动态规划 1、长度分别为 i-1 和 j 的字符串的编辑距离已知,那么加1即可; 2、长度分别为 i 和 j-1
的字符串的编辑距离已知,那么加1即可; 3、长度分别为 i-1 和 j-1
的字符串的编辑距离已知,此时考虑两种情况,若第i个字符和第j个字符不同,那么 加1即可;如果相同,那么不需要加1。
需要一个二维数组保存 i,j 的编辑距离

int edit_dist_1(string str_01, string str_02){
   
	int len_01 = str_01.length();
	int len_02 = str_02.length(); 
	int i = 0;
	int j = 0;
	int temp[len_01][len_02];  //保存中间结果
	while(i 
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值