基于词的编辑距离文本相似度计算

分词结果放在list里面

//基于词的编辑距离计算

        public static float levenshtein(ArrayList<String> listfirst, ArrayList<String> listsecond) {
            // 计算两个字符串的长度。
            int len1 = listfirst.size();
            int len2 = listsecond.size();
            System.out.println(len1 +"  "+len2);
            // 建立上面说的数组,比字符长度大一个空间

            int[][] dif = new int[len1 + 1][len2 + 1];
            // 赋初值,步骤B。
            for (int a = 0; a <= len1; a++) {
                dif[a][0] = a;
            }
            for (int a = 0; a <= len2; a++) {
                dif[0][a] = a;
            }
            // 计算两个字符是否一样,计算左上的值
            int temp;
            for (int i = 1; i <= len1; i++) {
                for (int j = 1; j <= len2; j++) {

                    
                    if (listfirst.get(i-1).equals(listsecond.get(j-1)) ) {
                        temp = 0;
                    } else {
                        temp = 1;
                    }
                    // 取三个值中最小的
                    dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
                            dif[i - 1][j] + 1);

                    System.out.println("i = " + i + ", j = " + j + ", dif[i][j] = "
                            + dif[i][j]);
                }
            }
       
            // 计算相似度
            float similarity = 1 - (float) dif[len1][len2]
                    / Math.max(listfirst.size(), listsecond.size());
            System.out.println("相似度:" + similarity);
            
            return similarity;
        }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值