今天老师布置一道实验题,虽然说给的时间挺长的,但是还是挺难的,而且网上没有代码,在这里讲解一下。
看他的需求:
设A和B是两个字符串,使用最少的字符操作将字符串A转换为B。字符操作包括:(1)删除一个字符;(2)插入一个字符;(3)将一个字符改写为另一个字符。将字符串A变换为字符串B所需要的最少字符操作数称为字符串A到字符串B的编辑距离(Edit Distance)。
任务:
1.应用动态规划设计策略,设计一个有效的算法,对于任意给定的2个字符串,计算它们的编辑距离,包含递归描述,可以参考附件A。
2、使用编辑距离,可以发现文本中的错误单词,实现简单的拼写纠正。针对附件B中的文本,自己构建一个英文常用词的字典,检测附件B中的错误单词,并利用编辑距离给出可能正确的单词,并进一步给出分析结果,分析算法的优缺点以及可能改进的方法。(附件C中是一些常用单词列表)
大概意思就是算一下两个字符串的编辑距离,再利用它去修改文件中文章的错误单词。
怎么实现,先来看看编辑距离的思路:
存在两个字符串A和B,他们的长度分别是lenA和lenB。首先考虑第一个字符,它们是一样的,所以只需要计算A[2...lenA]和B[2...lenB]之间的距离即可。如果两个字符串的第一个字符不一样,可以考虑把第一个字符变成一样的(假设把A串变成B串):
(1).修改A串的第一个字符成B串的第一个字符,之后仅需要计算A[2...lenA]和B[2...lenB]的距离即可;
(2).删除A串的第一个字符,之后仅需要计算A[2...lenA]和B[1...lenB]的距离即可;
把B串的第一个字符插入到A串的第一个字符之前,之后仅需要计算A[1...lenA]和B[2...lenB]的距离即可。