有小改进的最大公共子串计算

实际应用,两个String的相似性判定,要去除标点符号,甚至停用词等,然后对于连续的数字要降低权重,比如同样有“2016”只能作为一个相似度。
具体代码,去停词那个以后再发,需要一个停词表+扫描的数据结构算法,达到近乎索引的效率。还有的是用分词,分词会有词性属性帮助去停词,但是思路和这个就不一样了。下面是字符串的转换,转换为String【】,而且因为去掉了标点,将连续数字合一,减少了计算量,速度比简单的最大公共子串计算要快1/3.

public static String[] convertDigit(String str)
        {
        //正则去除标点
        String str = str.replaceAll("[\\pP]", "");

        //连续数字合一
            ArrayList<String> find = new ArrayList<String>();
            StringBuffer sb = new StringBuffer();
            for (int i = 0; i < str.length(); i++)
            {
                if (Character.isDigit(str.charAt(i)) )
                {
                    sb.append(str.charAt(i));
                } else
                {
                    if (sb.length() > 0)
                    {
                        find.add(sb.toString());
                        sb.setLength(0);
                    }
                    find.add(str.charAt(i) + "");

                }
                if(i==str.length()-1&&sb.length()>0)
                    find.add(sb.toString());
            }

            return find.toArray(new String[0]);
        }

然后就是用上面方法转换得到的两个String【】,计算最大公共子串

// 最大公共子串,统计矩阵行列公共元素,动态规划找到连续1最长的对角线长度,连续数字权重为1
        public static int GetSimilarLengthImprove(String[] s, String[] t)
        {
            int same[][]; // matrix
            int score[][]; // matrix
            int n; // length of s
            int m; // length of t
            int i; // iterates through s
            int j; // iterates through t
            char s_i; // ith character of s
            char t_j; // jth character of t
            int cost; // cost
            n = s.length;
            m = t.length;
            if (n == 0)
            {
                return m;
            }
            if (m == 0)
            {
                return n;
            }
            same = new int[n][m];
            score = new int[n][m];


            for (i = 0; i < n; i++)
            {
                for (j = 0; j < m; j++)
                {
                    if (s[i].equals(t[j]))
                    {
                        same[i][j] = 1;
                    }
                }
            }


            for (i = 0; i < n; i++)
            {
                for (j = 0; j < m; j++)
                {
                    if (i == 0 || j == 0)
                    {
                        score[i][j] = same[i][j];
                    } else
                    {
                        int max = Math.max(score[i - 1][j - 1] + same[i][j], Math.max(score[i][j - 1], score[i - 1][j]));
                        score[i][j] = max;
                    }
                }
            }
            return score[n - 1][m - 1];
        }

当然,计算编辑距离时,也可以先进行前面的预处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值