【JAVA实现】基于皮尔逊相关系数的相似度

这篇博客介绍了如何使用Java实现皮尔逊相关系数,从高中数学和大学线性代数两个角度解释该系数,并提供了一个计算示例。通过计算两个数据样本的平均值、标准差以及它们的乘积和,最终得出相关系数为1。
摘要由CSDN通过智能技术生成

以下解释摘自于网上, 简单易懂特地摘抄过来 原链接

皮尔逊相关系数理解有两个角度
1. 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理)标准差则等于变量减掉平均数的平方和,再除以样本数,最后再开方.
所以, 根据这个最朴素的理解,我们可以将公式依次精简为:
公式
2.按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦.

皮尔逊相关的约束条件
1. 两个变量间有线性关系
2. 变量是连续变量
3. 变量均符合正态分布,且二元分布也符合正态分布
4. 两变量独立


皮尔逊相关系数的值域等级

0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关


以上内容看起来太过晦涩,不如看个手算的示例让人更容易懂
使用维基中的例子

例如,假设五个国家的国民生产总值分别是1、2、3、5、8(单位10亿美元),又假设这五个国家的贫困比例分别是11%、12%、13%、15%、18%。

那么需要被计算的两个数据样本分别是

x->(1,2,3,5,8)
y->(0.11,0.12,0.13,0.15,0.18)

接下来计算两个数据样本的平均值

x的平均值为3.8
y的平均值为0.138

接下来计算皮尔逊系数的分子

用大白话来写就是:
(1-3.8)*(0.11-0.138)=0.0784
(2-3.8)*(0.12-0.138)=0.0324
(3-3.8)*(0.13-0.138)=0.0064
(5-3.8)*(0.15-0.138)=0.0144
(8-3.8)*(0.18-0.138)=0.1764
0.0784+0.0324+0.0064+0.0144+0.1764=0.308

同理分号下面的分别是
sum((x-mean(x))^2)=30.8 sum((y-mean(y))^2)= 0.00308

sum((x-mean(x))^2)=30.8
(1-3.8)^2=7.84 #平方
(2-3.8)^2=3.24 #平方
(3-3.8)^2=0.64 #平方
(5-3.8)^2=1.44 #平方
(8-3.8)^2=17.64 #平方
7.84+3.24+0.64+1.44+17.64=30.8

同理,求得:

sum((y-mean(y))^2)= 0.00308

然后再开平方根,分别是:

30.8^0.5=5.549775 0.00308^0.5=0.055

好的,针对您的问题,以下是Java实现经典的协同过滤算法使用皮尔逊系数的步骤: 步骤1:加载数据集 首先,我们需要加载一个包含用户偏好数据数据集。该数据集通常包含用户对物品的评分。例如,以下是一个包含用户对电影的评分数据集: userId movieId rating 1 101 5.0 1 102 3.0 1 103 2.5 2 101 2.0 2 102 2.5 2 103 5.0 3 101 2.5 3 103 3.0 3 104 3.5 步骤2:计算用户之间的相似度 接下来,我们使用皮尔逊系数来计算用户之间的相似度。皮尔逊系数是一种衡量两个变量之间线性相关性的方法。在协同过滤中,我们使用皮尔逊系数来计算用户之间的相似度,从而推荐物品。以下是计算用户之间相似度Java代码: public static double pearsonCorrelationScore(Map<String, Map<String, Double>> data, String user1, String user2) { Map<String, Double> user1Ratings = data.get(user1); Map<String, Double> user2Ratings = data.get(user2); double sum1 = 0, sum2 = 0, sum1Sq = 0, sum2Sq = 0, pSum = 0; int n = 0; for (String item : user1Ratings.keySet()) { if (user2Ratings.containsKey(item)) { n++; double rating1 = user1Ratings.get(item); double rating2 = user2Ratings.get(item); sum1 += rating1; sum2 += rating2; sum1Sq += Math.pow(rating1, 2); sum2Sq += Math.pow(rating2, 2); pSum += rating1 * rating2; } } if (n == 0) { return 0; } double num = pSum - (sum1 * sum2 / n); double den = Math.sqrt((sum1Sq - Math.pow(sum1, 2) / n) * (sum2Sq - Math.pow(sum2, 2) / n)); if (den == 0) { return 0; } return num / den; } 步骤3:寻找与当前用户最相似的用户 接下来,我们需要找到与当前用户最相似的用户。我们可以使用步骤2中的pearsonCorrelationScore函数来计算用户之间的相似度,并将它们作为键值对存储在一个Map中。以下是Java代码: public static List<String> findSimilarUsers(Map<String, Map<String, Double>> data, String user) { List<String> similarUsers = new ArrayList<>(); Map<String, Double> scores = new HashMap<>(); for (String otherUser : data.keySet()) { if (!otherUser.equals(user)) { double score = pearsonCorrelationScore(data, user, otherUser); if (score > 0) { scores.put(otherUser, score); } } } similarUsers.addAll(scores.keySet()); Collections.sort(similarUsers, (u1, u2) -> scores.get(u2).compareTo(scores.get(u1))); return similarUsers; } 步骤4:推荐物品给用户 最后,我们可以使用与当前用户最相似的用户的历史评分数据来推荐物品给用户。我们可以计算当前用户没有评分的物品的加权评分,并将它们按照评分从高到低排序,以便为用户提供推荐物品。以下是Java代码: public static List<String> getRecommendations(Map<String, Map<String, Double>> data, String user) { List<String> recommendations = new ArrayList<>(); Map<String, Double> scores = new HashMap<>(); Map<String, Double> totals = new HashMap<>(); for (String otherUser : findSimilarUsers(data, user)) { Map<String, Double> otherUserRatings = data.get(otherUser); for (String item : otherUserRatings.keySet()) { if (!data.get(user).containsKey(item)) { double score = pearsonCorrelationScore(data, user, otherUser) * otherUserRatings.get(item); scores.put(item, scores.getOrDefault(item, 0.0) + score); totals.put(item, totals.getOrDefault(item, 0.0) + pearsonCorrelationScore(data, user, otherUser)); } } } for (String item : scores.keySet()) { double score = scores.get(item); double total = totals.get(item); recommendations.add(item + ": " + (total > 0 ? score / total : 0)); } Collections.sort(recommendations, (r1, r2) -> Double.compare(Double.parseDouble(r2.split(": ")[1]), Double.parseDouble(r1.split(": ")[1]))); return recommendations; } 以上就是Java实现经典的协同过滤算法使用皮尔逊系数的步骤。希望对您有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值