字符串比较

最新推荐文章于 2024-05-29 09:46:33 发布

_windbell

最新推荐文章于 2024-05-29 09:46:33 发布

阅读量486

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/qq275394303/article/details/44566763

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

算法实现的文本对比差异--LCS(Longest Common Subsequence)

(1) 将两个字符串分别以行和列组成矩阵。
(2) 计算每个节点行列字符是否相同，如相同则为 1。
(3) 通过找出值为 1 的最长对角线即可得到最长公共子串。

为进一步提升该算法，我们可以将字符相同节点(1)的值加上左上角(d[i-1, j-1])的值，这样即可获得最大公用子串的长度。如此一来只需以行号和最大值为条件即可截取最大子串。

A B C D E F
A 1 0 0 0 0 0
B 0 2 0 0 0 0
C 0 0 3 0 0 0
D 0 0 0 4 0 0
5 0 0 0 0 0 0
5 0 0 0 0 0 0

递归剩下的字符串，获取最大公共的子串。

最后剩下的就是差异的字符串了

计算字符串相似度算法——Levenshtein

（原地址http://wdhdmx.iteye.com/blog/1343856）

a.首先是有两个字符串,这里写一个简单的 abc和abe

b.将字符串想象成下面的结构。

A处是一个标记，为了方便讲解，不是这个表的内容。

	abc	a	b	c
abe	0	1	2	3
a	1	A处
b	2
e	3

c.来计算A处出得值

它的值取决于：左边的1、上边的1、左上角的0.

按照Levenshtein distance的意思：

上面的值和左面的值都要求加1，这样得到1+1=2。

A处由于是两个a相同，左上角的值加0.这样得到0+0=0。

这是后有三个值，左边的计算后为2，上边的计算后为2，左上角的计算为0，所以A处取他们里面最小的0.

d.于是表成为下面的样子

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	B处
e	3

在B处会同样得到三个值，左边计算后为3，上边计算后为1，在B处由于对应的字符为a、b，不相等，所以左上角应该在当前值的基础上加1，这样得到1+1=2，在（3,1,2）中选出最小的为B处的值。

e.于是表就更新了

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	1
e	3	C处

C处计算后：上面的值为2，左边的值为4，左上角的：a和e不相同，所以加1，即2+1，左上角的为3。

在（2,4,3）中取最小的为C处的值。

f.于是依次推得到

		a	b	c
	0	1	2	3
a	1	A处 0	D处 1	G处 2
b	2	B处 1	E处 0	H处 1
e	3	C处 2	F处 1	I处 1

相似度 = 1 - ( 修改数/ 最大长度)

google-diff-match-patch/ 提供了多语言支持，对字符串对比，匹配(search)和补丁(还原) 功能

google-diff-match-patch