第九次作业编辑距离NO.3

有时我们需要知道给定的两个字符串“有多像”,换句话说两个字符串的相似度是多少。1965年,俄国科学家Vladimir Levenshtein给字符串相似度做出了一个定义,该定义叫做Levenshtein编辑距离,或者简单地叫“编辑距离”。该距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。可以进行的编辑操作包括替换、插入、删除三种。

例如,从FAME到GATE需要两步(两次替换),从GAME到ACM则需要三步(删除G和E再添加C)。在自然语言处理中,这个概念非常重要,比如我们可以根据这个定义设计单词校对系统:查找出文章里不在字典里的单词,然后列出字典里与它的编辑距离在某个范围的单词,让用户选择正确的那一个。编辑距离的概念在DNA序列分析、语音识别、抄袭辨别等领域也有很广泛的应用。

spellcheck

计算两个字符串S1,S2的Levenshtein编辑距离的算法可以采用动态规划的思想。该算法简单描述如下:

1、取m=S1.length(),n=S2.length()。
如果n==0返回m,如果m==0返回n。
构造一个(m+1)x(n+1)的矩阵d,用来记录字符串的子串之间的编辑距离。即d[i][j]表示S1.substring(0,i)与S2.substring(0,j)之间的编辑距离,因此最终得到的d[m][n]就是所求的两个字符串的编辑距离。

2、初始化矩阵d[i][0] = i,d[0][j] = j。即与空串比较时,编辑距离等于非空的那个串长度。

3、对S1的每个字符与S2的每个字符进行比较。如果,S1.charAt(i-1) == S2.charAt(j-1),进行赋值操作d[i][j] = d[i-1][j-1]。否则,d[i][j]取这三种变换得到的距离的最小值。其中删除产生的编辑距离为d[i-1][j]+1,插入产生的编辑距离为d[i][j-1]+1,替换产生的编辑距离为d[i-1][j-1]+1。

4、第3步对S1和S2的每个字符都完成后,返回d[m][n],即为所求的Levenshtein编辑距离。

==========

本题要求计算两个字符串的编辑距离。

输入:

两个字符串,每个占一行。

输出:

对应的编辑距离。

样例输入:

Nopains
Nogains

样例输出:

1

/*
 * 编辑距离
 * 算法简单描述如下:
 * 1、取m=S1.length(),n=S2.length()。
 *    如果n==0返回m,如果m==0返回n。
 *    构造一个(m+1)x(n+1)的矩阵d,用来记录字符串的子串之间的编辑距离。即d[i][j]表示S1.substring(0,i)与S2.substring(0,j)之间的编辑距离,因此最终得到的d[m][n]就是所求的两个字符串的编辑距离。 
 * 2、初始化矩阵d[i][0] = i,d[0][j] = j。即与空串比较时,编辑距离等于非空的那个串长度。
 * 3、对S1的每个字符与S2的每个字符进行比较。如果,S1.charAt(i-1) == S2.charAt(j-1),进行赋值操作d[i][j] = d[i-1][j-1]。否则,d[i][j]取这三种变换得到的距离的最小值。其中删除产生的编辑距离为d[i-1][j]+1,插入产生的编辑距离为d[i][j-1]+1,替换产生的编辑距离为d[i-1][j-1]+1。
 * 4、第3步对S1和S2的每个字符都完成后,返回d[m][n],即为所求的Levenshtein编辑距离。
 */
public class Main {
    public static int getLevenshtein(String s1,String s2){
		int m = s1.length();
		int n = s2.length();
		int temp=0;
		if(n==0) return n;
		if(m==0) return m;
		int [][] d = new int[m+1][n+1];
		for(int i=0;i<=m;i++){
			d[i][0]=i;
		}
		for(int j=0;j<=n;j++){
			d[0][j]=j;
		}
		for(int i = 1;i<=m;i++){
			for(int j = 1;j<=n;j++){
				if(s1.charAt(i-1)==s2.charAt(j-1)){
					temp = 0;
				}else{
					temp = 1;
				}
				d[i][j] = getMin(d[i-1][j-1]+temp,d[i][j-1]+1,d[i-1][j]+1);
			}
		}
		return d[m][n];
    }
    private static int getMin(int...is){
    	int min = Integer.MAX_VALUE;
    	for(int i:is){
    		if(min>i){
    			min=i;
    		}
    	}
    	return min;
    }
	public static void main(String[] args) {
		String s1 = StdIn.readLine();
		String s2 = StdIn.readLine();
		StdOut.print(getLevenshtein(s1,s2));
	}
}


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值