计算字符串的相似度

《编程之美》,参阅了其中的——计算字符串的相似度

许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不相同的字符串变得相同,具体的操作方法为:

    1.修改一个字符(如把“a”替换为“b”)。

    2.增加一个字符(如把“abdd”变为“aebdd”)。

    3.删除一个字符(如把“travelling”变为“traveling”)。

  比如,对于“abcdefg”和“abcdef”两个字符串来说,我们认为可以通过增加/减少一个“g“的方式来达到目的。上面的两种方案,都仅需要一次操作。把这个操作所需要的次数定义为两个字符串的距离,给定任意两个字符串,你是否能写出一个算法来计算出它们的距离?

  分析与解法

  不难看出,两个字符串的距离肯定不超过它们的长度之和(我们可以通过删除操作把两个串都转化为空串)。虽然这个结论对结果没有帮助,但至少可以知道,任意两个字符串的距离都是有限的。

  我们还是应该集中考虑如何才能把这个问题转化成规模较小的同样的问题。如果有两个串A=xabcdae和B=xfdfa,它们的第一个字符是相同的,只要计算A[2,…,7]=abcdae和B[2,…,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同,那么可以进行如下的操作(lenA和lenB分别是A串和B串的长度):

    1.删除A串的第一个字符,然后计算A[2,…,lenA]和B[1,…,lenB]的距离。

    2.删除B串的第一个字符,然后计算A[1,…,lenA]和B[2,…,lenB]的距离。

    3.修改A串的第一个字符为B串的第一个字符,然后计算A[2,…,lenA]和B[2,…,lenB]的距离。

    4.修改B串的第一个字符为A串的第一个字符,然后计算A[2,…,lenA]和B[2,…,lenB]的距离。

    5.增加B串的第一个字符到A串的第一个字符之前,然后计算A[1,…,lenA]和B[2,…,lenB]的距离。

    6.增加A串的第一个字符到B串的第一个字符之前,然后计算A[2,…,lenA]和B[1,…,lenB]的距离。

  在这个题目中,我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以,可以将上面6个操作合并为:

    1.一步操作之后,再将A[2,…,lenA]和B[1,…,lenB]变成相同字符串。

    2.一步操作之后,再将A[1,…,lenA]和B[2,…,lenB]变成相同字符串。

    3.一步操作之后,再将A[2,…,lenA]和B[2,…,lenB]变成相同字符串。

  这样,很快就可以完成一个递归程序。

package algorithm.written.examination;

public class StringRepeatability {
	public int stringDistance(String strA, int Afrist, int Alast, String strB,
			int Bfrist, int Blast) {
		if (Afrist > Alast) {
			if (Bfrist > Blast) {
				return 0;
			} else {
				return (Blast - Bfrist + 1);
			}

		}

		if (Bfrist > Blast) {
			if (Afrist > Alast) {
				return 0;
			} else {
				return (Alast - Afrist + 1);
			}

		}

		if (strA.valueOf(Afrist).equals(strB.valueOf(Bfrist))) {
			return stringDistance(strA, Afrist + 1, Alast, strB, Bfrist + 1,
					Blast);
		} else {
			int t1 = stringDistance(strA, Afrist, Alast, strB, Bfrist + 1,
					Blast);
			int t2 = stringDistance(strA, Afrist + 1, Alast, strB, Bfrist,
					Blast);
			int t3 = stringDistance(strA, Afrist + 1, Alast, strB, Bfrist + 1,
					Blast);
			return min(t1, t2, t3) + 1;
		}
	}

	private int min(int t1, int t2, int t3) {
		int min = t1;
		if (min > t2) {
			min = t2;
		}
		if (min > t3) {
			min = t3;
		}
		return min;
	}

	public static void main(String[] args) {
		String A = "abcdefg";
		String B = "abcdef";
		StringRepeatability sr = new StringRepeatability();
		int k = sr.stringDistance(A, 0, 6, B, 0, 5);
		System.out.println(k);
	}
}


转载于:https://www.cnblogs.com/jiutianhe/archive/2012/10/26/2755645.html

Java中可以通过编写Levenshtein Distance算法来计算字符串相似度。以下是一个基于动态规划的实现示例代码: ```java public class LevenshteinDistance { public static int calculate(String s1, String s2) { int[][] distance = new int[s1.length() + 1][s2.length() + 1]; for (int i = 0; i <= s1.length(); i++) { distance[i][0] = i; } for (int j = 1; j <= s2.length(); j++) { distance[0][j] = j; } for (int i = 1; i <= s1.length(); i++) { for (int j = 1; j <= s2.length(); j++) { int cost = s1.charAt(i - 1) == s2.charAt(j - 1) ? 0 : 1; distance[i][j] = Math.min(Math.min(distance[i - 1][j] + 1, distance[i][j - 1] + 1), distance[i - 1][j - 1] + cost); } } return distance[s1.length()][s2.length()]; } } ``` 在上述代码中,我们首先定义一个二维数组distance,用于存储字符串s1和s2之间的编辑距离。然后,我们初始化distance数组的第一行和第一列。接着,我们通过两个嵌套的循环遍历distance数组,计算编辑距离。最后,我们返回distance数组的最后一个元素,即s1和s2之间的编辑距离。 可以通过以下方式调用LevenshteinDistance类中的calculate方法来计算两个字符串之间的编辑距离: ```java String s1 = "kitten"; String s2 = "sitting"; int distance = LevenshteinDistance.calculate(s1, s2); System.out.println("编辑距离为:" + distance); ``` 运行结果为: ``` 编辑距离为:3 ``` 这表明,将字符串"kitten"转变成字符串"sitting"所需的最少操作次数为3。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值