Levenshtein 距离算法

/**
 * Levenshtein 距离算法 表由一个字符串转成另外一个字符串所需的最少编辑操作次数 算法
 * 
 * @author 王文彦
 * @Date 2011-8-4
 * 
 */
public class LevenshteinDistance {

	/* 取三个数中最小的值 */
	private static int Minimum(int a, int b, int c) {
		int mi;

		mi = a;
		if (b < mi) {
			mi = b;
		}
		if (c < mi) {
			mi = c;
		}
		return mi;

	}

	// *****************************
	// Compute Levenshtein distance
	// *****************************

	public static int LD(String src, String dis) {
		int d[][]; // matrix
		int sLength; // length of s
		int dLength; // length of t
		char s_i; // ith character of s
		char t_j; // jth character of t
		int cost; // cost

		// Step 1

		sLength = src.length();
		dLength = dis.length();
		if (sLength == 0) {
			return dLength;
		}
		if (dLength == 0) {
			return sLength;
		}
		d = new int[sLength + 1][dLength + 1];

		// Step 2

		for (int i = 0; i <= sLength; i++) {
			d[i][0] = i;
		}

		for (int j = 0; j <= dLength; j++) {
			d[0][j] = j;
		}
		// Step 3

		for (int i = 1; i <= sLength; i++) {

			s_i = src.charAt(i - 1);
			// Step 4
			for (int j = 1; j <= dLength; j++) {
				t_j = dis.charAt(j - 1);
				// Step 5
				if (s_i == t_j) {
					cost = 0;
				} else {
					cost = 1;
				}
				// Step 6
				d[i][j] = Minimum(d[i - 1][j] + 1, d[i][j - 1] + 1,
						d[i - 1][j - 1] + cost);
			}
		}
		return d[sLength][dLength];

	}

	/**
	 * @param args
	 * @param
	 */
	public static void main(String[] args) {
		System.out.println(LD("aecdf", "abcd"));

	}

}


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
编辑距离算法是一种用来衡量字符串之间相似度的算法,它可以计算出将一个字符串转换为另一个字符串所需的最小操作数。 编辑距离的计算使用了Levenshtein distance算法,该算法由俄罗斯数学家Vladimir Levenshtein在1965年提出。它通过插入、删除和替换字符来计算两个字符串之间的距离算法的基本思想是逐个比较字符串中的字符,当字符不相同时,可以选择进行插入、删除或替换操作,使得两个字符相等,从而减小距离。通过一系列的操作,最后可以得到两个字符串相等的情况。 在计算过程中,算法使用了一个二维矩阵来表示两个字符串之间的距离。矩阵的行表示源字符串的字符,列表示目标字符串的字符。矩阵中的每个值表示在当前位置上,通过一系列操作所需的最小距离。通过动态规划的方式,算法逐步填充矩阵,直到计算得到整个矩阵。 计算编辑距离的过程是从左上角到右下角的遍历,每一步都考虑当前位置的字符是否相等,如果相等,则跳过该字符;如果不相等,则可以选择插入、删除或替换操作,并选择最小操作数。最后,右下角的值即为两个字符串之间的编辑距离。 编辑距离算法可以应用于许多领域,如拼写纠正、基因序列比对等。通过计算字符串之间的相似度,可以帮助我们理解文本、数据的相似性程度,从而提供更好的数据处理与分析效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值