Neo4j 做推荐（7）—— 基于内容的相似度量标准

最新推荐文章于 2024-04-27 09:45:10 发布

程序员imHou

最新推荐文章于 2024-04-27 09:45:10 发布

阅读量4.9k

点赞数 3

分类专栏： Neo4j 文章标签： neo4j 杰卡德指数 Jaccard

本文链接：https://blog.csdn.net/lovehouye/article/details/83505999

版权

Neo4j 专栏收录该内容

12 篇文章 15 订阅

订阅专栏

相似度量是用于生成个性化推荐的重要组件，这些推荐允许我们量化两个项目的相似程度（或者我们稍后会看到，两个用户偏好的相似程度）。

Jaccard指数是0到1之间的数字，表示两组的相似程度。

两个相同集合的Jaccard指数是1.
如果两个集合没有公共元素，则Jaccard索引为0.
通过将两个集合的交集的大小除以两个集合的并集来计算Jaccard。

我们可以计算电影类型集的Jaccard指数，以确定两部电影的相似程度。

哪些电影是跟《盗梦空间》基于Jaccard指数最相似的？

MATCH (m:Movie {title: "Inception"})-[:IN_GENRE]->(g:Genre)<-[:IN_GENRE]-(other:Movie)
WITH m, other, COUNT(g) AS intersection, COLLECT(g.name) AS i
MATCH (m)-[:IN_GENRE]->(mg:Genre)
WITH m,other, intersection,i, COLLECT(mg.name) AS s1
MATCH (other)-[:IN_GENRE]->(og:Genre)
WITH m,other,intersection,i, s1, COLLECT(og.name) AS s2

WITH m,other,intersection,s1,s2

WITH m,other,intersection,s1+filter(x IN s2 WHERE NOT x IN s1) AS union, s1, s2

RETURN m.title, other.title, s1,s2,((1.0*intersection)/SIZE(union)) AS jaccard ORDER BY jaccard DESC LIMIT 100

分析：

1. 首先查询出电影盗梦空间和与它流派相关性的电影集other

2. count(g) 其实就是电影盗梦空间和电影集other 的流派交集的数量（共同的流派）

3. s1+filter(x IN s2 WHERE NOT x IN s1) AS union 此 union 即是s1 和 s2 的并集（集合s1 加上 s2中不包含s1 的那部分）

4. ((1.0*intersection)/SIZE(union)) AS jaccard 根据上面的Jaccard指数公式计算所得的指数。

运行结果如下：

我们可以将这个相同的方法应用于电影的所有特征（如流派、演员、导演等）：

MATCH (m:Movie {title: "Inception"})-[:IN_GENRE|:ACTED_IN|:DIRECTED]-(t)<-[:IN_GENRE|:ACTED_IN|:DIRECTED]-(other:Movie)
WITH m, other, COUNT(t) AS intersection, COLLECT(t.name) AS i
MATCH (m)-[:IN_GENRE|:ACTED_IN|:DIRECTED]-(mt)
WITH m,other, intersection,i, COLLECT(mt.name) AS s1
MATCH (other)-[:IN_GENRE|:ACTED_IN|:DIRECTED]-(ot)
WITH m,other,intersection,i, s1, COLLECT(ot.name) AS s2

WITH m,other,intersection,s1,s2

WITH m,other,intersection,s1+filter(x IN s2 WHERE NOT x IN s1) AS union, s1, s2

RETURN m.title, other.title, s1,s2,((1.0*intersection)/SIZE(union)) AS jaccard ORDER BY jaccard DESC LIMIT 100

程序员imHou

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
2
评论
Neo4j 做推荐（7）—— 基于内容的相似度量标准

相似度量是用于生成个性化推荐的重要组件，这些推荐允许我们量化两个项目的相似程度（或者我们稍后会看到，两个用户偏好的相似程度）。Jaccard指数是0到1之间的数字，表示两组的相似程度。两个相同集合的Jaccard指数是1. 如果两个集合没有公共元素，则Jaccard索引为0. 通过将两个集合的交集的大小除以两个集合的并集来计算Jaccard。我们可以计算电影类型集的Jaccard...
复制链接

扫一扫