计算字符串相似度【转载】

最新推荐文章于 2021-08-26 20:38:13 发布

some_321

最新推荐文章于 2021-08-26 20:38:13 发布

阅读量191

点赞数

分类专栏：算法 Java语言文章标签：编辑距离

Java语言同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

算法

1 篇文章 0 订阅

订阅专栏

---------以下部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html----------------　

在“文本比较算法Ⅰ——LD算法”中，介绍了编辑距离的计算。

　　在“文本比较算法Ⅱ——Needleman/Wunsch算法”中，介绍了最长公共子串的计算。

　　在给定的字符串A和字符串B，LD(A,B)表示编辑距离，LCS(A,B)表示最长公共子串的长度。

　　如何来度量它们之间的相似度呢？

　　不妨设S(A,B)来表示字符串A和字符串B的相似度。那么，比较合理的相似度应该满足下列性质。

　　性质一：0≤S(A,B)≤100%，0表示完全不相似，100%表示完全相等

　　性质二：S(A,B)=S(B,A)

　　目前，网上介绍的各种相似度的计算，都有各自的不尽合理的地方。

　　计算公式一：S(A,B)=1/(LD(A,B)+1)

　　　　能完美的满足性质二。

　　　　当LD(A,B)=0时，S(A,B)=100%，不过无论LD(A,B)取任何值，S(A,B)＞0，不能满足性质一。

　　计算公式二：S(A,B)=1－LD(A,B)/Len(A)

　　　　当Len(B)＞Len(A)时，S(A,B)＜0。不满足性质一。

　　　　有人会说，当S(A,B)<0时，强制指定S(A,B)=0就解决问题了。

　　　　问题是，S(A,B)=1－LD(A,B)/Len(A)，而S(B,A)=1－LD(B,A)/Len(B)。当Len(A)≠Len(B)时，S(A,B)≠S(B,A)。不满足性质二

　　　　还有一个例子可以说明问题

　　　　A="BC"，B="CD"，C="EF"

　　　　S(A,B)=1－LD(A,B)/Len(A)=1－2/2=0

　　　　S(A,C)=1－LD(A,C)/Len(A)=1－2/2=0

　　　　A和B的相似度与A和C的相似度是一样的。不过很明显的是B比C更接近A

　　计算公式三：S(A,B)=LCS(A,B)/Len(A)

　　　　这个公式能完美的满足的性质一

　　　　不过当Len(A)≠Len(B)时，S(A,B)≠S(B,A)。不满足性质二

　　　　用一个例子说明问题

　　　　A="BC"，B="BCD"，C="BCEF"

　　　　S(A,B)=LCS(A,B)/Len(A)=2/2=100%

　　　　S(A,C)=LCS(A,C)/Len(A)=2/2=100%

　　　　A和B的相似度与A和C的相似度是一样的。不过很明显的是B比C更接近A

　　上面是网上能找到的三个计算公式，从上面的分析来看都有各自的局限性。

　　我们看一个例子：

　　A=GGATCGA，B=GAATTCAGTTA，LD(A,B)=5，LCS(A,B)=6

　　他们的匹配为：

　　　　A：GGA_TC_G__A

　　　　B：GAATTCAGTTA

　　可以看出上面蓝色的部分表示的是LCS部分，黑色表示的是LD部分。

　　因此，给出一个新的公式

　　S(A,B)=LCS(A,B)/(LD(A,B)+LCS(A,B))

　　这个公式能解决上述三个公式的种种不足。

　　而LD(A,B)+LCS(A,B)表示两个字符串A、B的最佳匹配字串的长度。这个是唯一的。

　　还有注意的是LD(A,B)+LCS(A,B)和Max(Len(A),Len(B))这两个并不完全相等。

---------以上部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html----------------

实现代码如下：

package algorithm;

import java.io.IOException;

/**
 * Levenshtein Distance 算法实现
 * 可以使用的地方：DNA分析 　　拼字检查 　　语音辨识 　　抄袭侦测
 * 相似度公式：S(A,B)=LCS(A,B)/(LD(A,B)+LCS(A,B))
 * LCS为最长公共子串长度，LD是编辑距离
 */
public class Levenshtein {

    public static void main(String[] args) throws IOException {
        //要比较的两个字符串
        String str1 = "【性教育】当孩子能听懂言语时，家长应把性教育贯穿在日常生活中，如在洗澡、着装、修整发型及玩具选择等方面要有明确的性别区分。还可通过书报、画册、影视、讲故事等进行引导，使孩子对性别产生一种自然的认识，从而使他们接受、认识生命本质，使性自认得以完成。";
        String str2 = "【对孩子进行适当的性教育】当孩子能听懂言语时，家长应把性教育贯穿在日常生活中，如在洗澡、着装、修整发型及玩具选择等方面要有明确的性别区分。还可通过书报、画册、影视、讲故事等进行引导，使孩子对性别产生一种自然的认识，从而使他们接受、认识生命本质，使性自认得以完成。";
        System.out.println(levenshtein(str1, str2));
    }

    /**
     * 　　DNA分析 　　拼字检查 　　语音辨识 　　抄袭侦测
     * <p/>
     * 加入了LCS
     */
    public static float levenshtein(String str1, String str2) {
        //计算两个字符串的长度。
        int len1 = str1.length();
        int len2 = str2.length();
        //建立上面说的数组，比字符长度大一个空间
        /**
         *　若ai=bj，则LD(i,j)=LD(i-1,j-1)
         *　若ai≠bj，则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1
         */
        int[][] dif = new int[len1 + 1][len2 + 1];
        /**
         * 　　若ai=bj，则LCS(i,j)=LCS(i-1,j-1)+1
         *　若ai≠bj，则LCS(i,j)=Max(LCS(i-1,j-1),LCS(i-1,j),LCS(i,j-1))
         */
        int[][] lcs = new int[len1 + 1][len2 + 1];
        //赋初值，步骤B。
        for (int a = 0; a <= len1; a++) {
            dif[a][0] = a;
            lcs[a][0] = 0;
        }
        for (int a = 0; a <= len2; a++) {
            dif[0][a] = a;
            lcs[0][a] = 0;
        }
        //计算两个字符是否一样，计算左上的值
        int temp;
        for (int i = 1; i <= len1; i++) {
            for (int j = 1; j <= len2; j++) {
                if (str1.charAt(i - 1) == str2.charAt(j - 1)) {
                    temp = 0;
                } else {
                    temp = 1;
                }
                //取三个值中最小的
                dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
                        dif[i - 1][j] + 1);
                if (temp == 0)
                    lcs[i][j] = lcs[i - 1][j - 1] + 1;
                else
                    lcs[i][j] = max(lcs[i - 1][j - 1], lcs[i][j - 1], lcs[i - 1][j]);
            }
        }
        //取数组右下角的值，同样不同位置代表不同字符串的比较
//        System.out.println("差异步骤：" + dif[len1][len2]);
        //计算相似度
        /**
         *   这个计算公式有弊端，假设A="BC"，B="CD"，C="EF"
         S(A,B)=1－LD(A,B)/Max(Len(A),Len(B))=1－2/2=0
         S(A,C)=1－LD(A,C)/Max(Len(A),Len(C))=1－2/2=0
         A和B的相似度与A和C的相似度是一样的。不过很明显的是B比C更接近A
         */
//        float similarity = 1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());
        float similarity = (float) lcs[len1][len2] / (dif[len1][len2] + lcs[len1][len2]);

        return similarity;
    }

    //得到最小值
    private static int min(int... is) {
        int min = Integer.MAX_VALUE;
        for (int i : is) {
            if (min > i) {
                min = i;
            }
        }
        return min;
    }

    //得到最大值
    private static int max(int... is) {
        int max = Integer.MIN_VALUE;
        for (int i : is) {
            if (max < i) {
                max = i;
            }
        }
        return max;
    }

}