感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
更多Python视频、源码、资料加群531509025免费获取
那么,如何用Python计算编辑距离呢?我们可以从较为简单的情况进行分析。
- 当两个字符串都为空串,那么编辑距离为0;
- 当其中一个字符串为空串时,那么编辑距离为另一个非空字符串的长度;
- 当两个字符串均为非空时(长度分别为 i 和 j ),取以下三种情况最小值即可:
- 1、长度分别为 i-1 和 j 的字符串的编辑距离已知,那么加1即可;
- 2、长度分别为 i 和 j-1 的字符串的编辑距离已知,那么加1即可;
- 3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知,此时考虑两种情况,若第i个字符和第j个字符不同,那么加1即可;如果不同,那么不需要加1。
很明显,上述算法的思想即为动态规划。
求长度为m和n的字符串的编辑距离,首先定义函数——edit(i, j),它表示第一个长度为i的字符串与第二个长度为j的字符串之间的编辑距离。动态规划表达式可以写为:
- if i == 0 且 j == 0,edit(i, j) = 0
- if (i == 0 且 j > 0 )或者 (i > 0 且j == 0),edit(i, j) = i + j
- if i ≥ 1 且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + d(i, j) },当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,d(i, j) = 1;否则,d(i, j) = 0。
最终的编辑距离即为edit(m,n)。上述示例的edit矩阵可以表示如下:
Python代码实现
Talk is cheap. Show me the code. Python代码也是极其简洁的,这也是动态规划的魅力:
扩展
那么,Python功能这么强大,有没有计算编辑距离的包呢?
答案是肯定的,Python中的Levenshtein包可以用来计算编辑距离,安装方法很简单,直接安装即可:
pip install python-Levenshtein
这样我们就可以引入包直接计算编辑距离了:
有同学可能想计算汉字之间的编辑距离,如下:
得到的结果是3而不是1。这是因为在字符串编码为utf-8时,一个汉字占用3个字节。改为unicode编码即可得到1,即:
那么,Levenshtein包中还有没有其它计算距离的方法呢?
这个包有很多计算距离的方法,包括如下:
- hamming(str1, str2),计算长度相等的字符串str1和str2的汉明距离,即为两个等长字串之间对应位置上不同字符的个数。
- ratio(str1, str2),计算莱文斯坦比。计算公式 r = (sum – ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和,ldist是类编辑距离。注意这里是类编辑距离,在类编辑距离中删除、插入依然+1,但是替换+2。
- jaro(str1, str2),jaro_winkler(str1, str2)等等。
总结
- 可以用动态规划算法求解字符串的编辑距离。
- PyPi包Levenshtein可以用来计算字符串的编辑距离,也可以计算其它类型的距离。
最后
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
👉Python所有方向的学习路线👈
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
👉Python必备开发工具👈
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
👉Python全套学习视频👈
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
👉实战案例👈
学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。
因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。
👉大厂面试真题👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!