Python 实现Jaccard 相似度计算排序

最新推荐文章于 2024-07-18 11:54:47 发布

机器玄学实践者

最新推荐文章于 2024-07-18 11:54:47 发布

阅读量3.6k

点赞数

分类专栏： NLP 推荐系统文章标签：相似度推荐系统排序算法无监督

本文链接：https://blog.csdn.net/weixin_39673686/article/details/124100957

版权

基本原理

Jaccard 的核心就是。交集/并集。

公式为 Jaccard(a,b) =. | F(a) ^ F(b)| / |F(a) U F(b)||

如何理解这个指标呢？比如说我和我朋友都喜欢听歌，我们在网易云音乐听歌，我听过的歌和他听过的歌类似，那么我们这两个用户就非常相似。可以通过 jaccard 来根据我们的听歌的记录的交集和并集来计算相似度。

如果我和我的朋友听过的歌完全一样，那么 fa = fb ， jaccard 为1。如果我们之间没有共同的播放记录，那么交集为0，相似度就为零。

工程实现

Jaccard的a和b实际上就是不同 document 的某一个相同字段，可以是文本，也可以是 id ，最后通过 F（a）来构建集合特征。

在我的例子中，我用的是文本的分词特征。如果 a 和b两段文本有很大的比例是共同的关键词，那么a和b很相似

代码

def jaccard(a,b):
    return len(set(a).intersection(set(b))) / len(set(a).union(set(b)))

def get_common_word_number(query, docs):
    #return [  len(set(query).intersection(set(d))  ) for d in docs]
    return [ jaccard(query,d) for d in docs]

def rank_feature(id2doc, query_id, eng_field, sub_data):
    query = id2doc[query_id][eng_field]
    do

最低0.47元/天解锁文章

机器玄学实践者

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python 实现Jaccard 相似度计算排序

基本原理Jaccard 的核心就是。交集/并集。公式为 Jaccard(a,b) =. | F(a) ^ F(b)| / |F(a) U F(b)||如何理解这个指标呢？比如说我和我朋友都喜欢听歌，我们在网易云音乐听歌，我听过的歌和他听过的歌类似，那么我们这两个用户就非常相似。可以通过 jaccard 来根据我们的听歌的记录的交集和并集来计算相似度。如果我和我的朋友听过的歌完全一样，那么 fa = fb ， jaccard 为1。如果我们之间没有共同的播放
复制链接

扫一扫