自然语言处理-文本相似度计算

最新推荐文章于 2024-03-07 14:12:59 发布

孜然与盐处理

最新推荐文章于 2024-03-07 14:12:59 发布

阅读量763

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_43423614/article/details/118077252

版权

自然语言处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文本相似度计算有一下2种方式：
1.欧式距离
通过计算两个句子的向量距离来判断两个句子的相似度。
距离越来说明相似度越小，距离越小说明相似度越大。
缺点：
例：给定两组向量,x1 = (1,1,1)，y1=(3,3,3)和 x2=(2,1,-1), y2=(0,-1,1).通过计算发现x1，y1的欧氏距离和x2，y2的欧式距离一样。但是x1和y1更加相似，是因为欧氏距离在计算的过程中没有考虑到向量的方向。如果2个向量相似，需要考虑到它们的方向是否也是相似的。

2.余弦相似度
计算相似度：d = s1 · s2 / (|s1| * |s2|)
s1 · s2：s1和s2的内积
|s1|：s1的长度
例：x = (x1, x2, x3)，y = (y1, y2, y3)
内积公式：x1y1+x2y2+x3*y3
长度公式：|x1| = sqrt( (y1)2 + (y2)2 +(y3)2 )
|y1| = sqrt( (y1)2 + (y2)2 +(y3)2 )

余弦相似度代码实现：

import numpy as np


def cosine_similarity(v1, v2):
    # 计算2个向量的余弦相似度
    # 计算内积
    dot_product = np.dot(v1, v2)
    # 计算v1，v2的长度
    norm_v1 = np.linalg.norm(v1)
    norm_v2 = np.linalg.norm(v1)
    return dot_product / (norm_v1 * norm_v2)


sentence_v1 = np.array([1, 1, 1, 1, 0, 0, 0, 0, 0])
sentence_v2 = np.array([0, 0, 1, 1, 1, 1, 0, 0, 0])
sentence_v3 = np.array([0, 0, 0, 1, 0, 0, 1, 1, 1])

print(sentence_v1, "和", sentence_v2, "的相似度为%s" %(cosine_similarity(sentence_v1, sentence_v2)))
print(sentence_v1, "和", sentence_v3, "的相似度为%s" %(cosine_similarity(sentence_v1, sentence_v3)))

谢谢阅读，如果有建议请提出！

孜然与盐处理

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
自然语言处理-文本相似度计算

文本相似度计算有一下2种方式：1.欧式距离通过计算两个句子的向量距离来判断两个句子的相似度。距离越来说明相似度越小，距离越小说明相似度越大。缺点：例：给定两组向量,x1 = (1,1,1)，y1=(3,3,3)和 x2=(2,1,-1), y2=(0,-1,1).通过计算发现x1，y1的欧氏距离和x2，y2的欧式距离一样。但是x1和y1更加相似，是因为欧氏距离在计算的过程中没有考虑到向量的方向。如果2个向量相似，需要考虑到它们的方向是否也是相似的。2.余弦相似度计算相似度：d = s1 ·
复制链接

扫一扫