计算文本相似度－杰卡德系数计算

最新推荐文章于 2024-08-15 16:44:11 发布

Eric_LH

最新推荐文章于 2024-08-15 16:44:11 发布

阅读量6k

点赞数 2

分类专栏：自然语言处理自然语言处理基础

自然语言处理同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

自然语言处理基础

12 篇文章 2 订阅

订阅专栏

源于https://juejin.im/post/5b237b45f265da59a90c11d6
杰卡德系数，英文叫做 Jaccard index, 又称为 Jaccard 相似系数，用于比较有限样本集之间的相似性与差异性。Jaccard 系数值越大，样本相似度越高。实际上它的计算方式非常简单，就是两个样本的交集除以并集得到的数值，当两个样本完全一致时，结果为 1，当两个样本完全不同时，结果为 0。算法非常简单，就是交集除以并集，下面我们用 Python 代码来实现一下：

from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

def jaccard_similarity(s1, s2):
    def add_space(s):
        return ' '.join(list(s))

    # 将字中间加入空格
    s1, s2 = add_space(s1), add_space(s2)
    # 转化为TF矩阵
    cv = CountVectorizer(tokenizer=lambda s: s.split())
    corpus = [s1, s2]
    vectors = cv.fit_transform(corpus).toarray()
    # 求交集
    numerator = np.sum(np.min(vectors, axis=0))
    # 求并集
    denominator = np.sum(np.max(vectors, axis=0))
    # 计算杰卡德系数
    return 1.0 * numerator / denominator

s1 = '你在干嘛呢'
s2 = '你在干什么呢'
print(jaccard_similarity(s1, s2))

这里我们使用了 Sklearn 库中的 CountVectorizer 来计算句子的 TF 矩阵，然后利用 Numpy 来计算二者的交集和并集，随后计算杰卡德系数。这里值得学习的有 CountVectorizer 的用法，通过它的 fit_transform() 方法我们可以将字符串转化为词频矩阵，例如这里有两句话“你在干嘛呢”和“你在干什么呢”，首先 CountVectorizer 会计算出不重复的有哪些字，会得到一个字的列表，结果为：

['么', '什', '你', '呢', '嘛', '在', '干']

这个其实可以通过如下代码来获取，就是获取词表内容：

cv.get_feature_names()

接下来通过转化之后，vectors 变量就变成了：

[[0 0 1 1 1 1 1]
 [1 1 1 1 0 1 1]]

它对应的是两个句子对应词表的词频统计，这里是两个句子，所以结果是一个长度为 2 的二维数组，比如第一句话“你在干嘛呢”中不包含“么”字，那么第一个“么”字对应的结果就是0，即数量为 0，依次类推。后面我们使用了 np.min() 方法并传入了 axis 为 0，实际上就是获取了每一列的最小值，这样实际上就是取了交集，np.max() 方法是获取了每一列的最大值，实际上就是取了并集。二者分别取和即是交集大小和并集大小，然后作商即可，结果如下：