寻找另一半：基于兴趣爱好的相似好友推荐策略

时(^ω^)人‡

于 2024-08-09 10:12:17 发布

阅读量1.3k

点赞数 19

文章标签：算法 redis java spring boot 前端机器学习

本文链接：https://blog.csdn.net/qq_44957574/article/details/141036923

版权

文章目录

应用场景

在本人负责的一个交友类项目中，实现了一个向用户推荐可能感兴趣的其他用户的功能。推荐的目标是使推荐的用户尽可能相似。系统要求用户设置自己的兴趣爱好标签，因此推荐策略基于这些标签的相似度来进行

兴趣爱好相似度的计算方法

这里主要列举出几种基于距离的方法。

1. Jaccard 相似度

衡量两个集合相似度的指标。它的定义是两个集合交集的大小与并集的大小的比值。Jaccard相似度的值范围在0到1之间，值越接近1表示两个集合越相似。

公式：

$\frac{|A\cap B|}{|A \cup B|}$

使用步骤：

将目标用户的兴趣爱好放到一个集合里
将另一个用户的兴趣爱好放到另一个集合里
通过公式计算两者的 Jaccard 相似度
重复上述步骤，计算目标用户跟其他所有用户的Jaccard距离，根据距离降序排序，返回最匹配的若干个用户。

评价

实现简单直观，用户之间的共性越多，差异越小，则越相似。但这种方法没有考虑爱好之间的潜在关联。

2. 余弦相似度

余弦相似度是一种衡量两个非零向量之间角度的度量。它通过计算两个向量之间的夹角的余弦值来评估它们之间的相似性。如果两个向量在多维空间中指向相同的方向，则它们的余弦相似度接近1；如果方向相反，则接近-1；如果正交，则余弦相似度为0。

公式：
$cosine\_sim = \frac{A·B}{||A|| ||B||}$
$A$ 和 $B$ 为两个向量，做内积在除以二者的模的乘积就是余弦相似度的值。

使用步骤：

将用户的兴趣爱好转成向量
计算目标用户与其他用户之间的余弦相似度
返回余弦相似度最大的用户作为最匹配的结果

评价

这是一种较为适合的方法，爱好在被编码后映射到了高维空间中，相似类型的爱好聚集在一起。余弦值越大，代表两个向量的方向越一致，爱好就越相似，用户之间也就越相似。然而，将爱好编码成向量比较麻烦，编码的质量决定了推荐的质量。

3. 欧式距离

欧式距离是一种常用的度量两个点在多维空间中的直线距离的方法。它基于笛卡尔坐标系中的两点之间的距离公式，适用于多维空间的任务。

公式：
$\sqrt{\sum_{i=1}^{n}{a_i - b_i}^2}$

评价
衡量两个向量的直线距离，距离越大则越不相似，反之越相似。虽然可用，但在多维空间上，向量的相似度通常用夹角来衡量更好。同样需要将爱好编码成向量。

爱好标签转向量的方法

1. 独热编码

将每个爱好标签转换为一个维度，如果用户拥有这个标签，则对应维度的值为 1，否则为 0。

例如，如果有 30 个爱好标签，则一个用户的爱好向量就是 30 维，如果用户有某个爱好，那么那一维上就设置成 1。

这种编码方式的爱好数量和顺序需要预先设定好，不支持用户自定义标签。适合爱好数量较少的情况，数量太多会导致向量非常稀疏，效果不佳。

2. 连续编码

将若干个爱好标签直接编码成数字（如 1、2、3…）。

这种编码方式简单直接，但可能会引入不必要的顺序关系，即数值相近的标签被假定为相似。

3. 机器学习编码

使用 Word2Vec 或 GloVe 这样的模型来获取每个标签的词向量。这些模型通常已经有训练好的权重模型，可以直接使用。

这种方式能够捕捉到标签间的语义关系，但需要额外的数据处理和模型训练工作。

Jaccard 相似度代码实现

项目中最终选择了 Jaccard 算法实现，毕竟比较简单快速。
我的兴趣爱好是两级的，所以对一级和二级标签分别计算相似度，然后加权。

public class JaccardSimilarityUtil {
    // 计算两个集合的 jaccard 相似度
    public static double jaccardSimilarity(Set<Integer> user_one, Set<Integer> user_two){
        Set<Integer> intersection = new HashSet<>(user_one);
        // 获取两个集合的交集
        intersection.retainAll(user_two);

        // 获取两个集合的并集
        Set<Integer> union = new HashSet<>(user_one);
        union.addAll(user_two);

        return (double) intersection.size() / union.size();

    }

    // 计算一级标签的 jaccard 相似度
    public static double firstLevelJaccardSimilarity(Map<Integer, Set<Integer>> user1Interests, Map<Integer, Set<Integer>> user2Interests) {
        Set<Integer> firstLevel1 = user1Interests.keySet();
        Set<Integer> firstLevel2 = user2Interests.keySet();
        return jaccardSimilarity(firstLevel1, firstLevel2);
    }

    // 计算二级标签的Jaccard相似度
    public static double secondLevelJaccardSimilarity(Map<Integer, Set<Integer>> user1Interests, Map<Integer, Set<Integer>> user2Interests) {
        Set<Integer> combinedFirstLevels = new HashSet<>(user1Interests.keySet());
        combinedFirstLevels.addAll(user2Interests.keySet());

        Set<Integer> secondLevel1 = new HashSet<>();
        Set<Integer> secondLevel2 = new HashSet<>();

        for (Integer firstLevel : combinedFirstLevels) {
            secondLevel1.addAll(user1Interests.getOrDefault(firstLevel, Collections.emptySet()));
            secondLevel2.addAll(user2Interests.getOrDefault(firstLevel, Collections.emptySet()));
        }

        return jaccardSimilarity(secondLevel1, secondLevel2);
    }

    // 计算综合Jaccard相似度
    public static double combinedJaccardSimilarity(Map<Integer, Set<Integer>> user1Interests, Map<Integer, Set<Integer>> user2Interests) {
        double firstLevelSimilarity = firstLevelJaccardSimilarity(user1Interests, user2Interests);
        double secondLevelSimilarity = secondLevelJaccardSimilarity(user1Interests, user2Interests);

        // 可以根据需要调整权重
        return 0.5 * firstLevelSimilarity + 0.5 * secondLevelSimilarity;
    }

    // 计算一个用户与其他多个用户的Jaccard相似度
    public static Map<Long, Double> calculateJaccardSimilarities(
            Map<Integer, Set<Integer>> targetUserInterests,
            Map<Long, Map<Integer, Set<Integer>>> otherUsersInterests) {

        Map<Long, Double> similarities = new HashMap<>();

        for (Map.Entry<Long, Map<Integer, Set<Integer>>> entry : otherUsersInterests.entrySet()) {
            Long userId = entry.getKey();
            Map<Integer, Set<Integer>> userInterests = entry.getValue();

            // 计算综合Jaccard相似度
            double similarity = combinedJaccardSimilarity(targetUserInterests, userInterests);
            similarities.put(userId, similarity);
        }

        return similarities;
    }
    public static void main(String[] args) {
    	// key:value -> 一级爱好：二级爱好
        Map<Integer, Set<Integer>> user1Interests = new HashMap<>();
        user1Interests.put(1, new HashSet<>(Arrays.asList(1, 2, 3)));
        user1Interests.put(2, new HashSet<>(Arrays.asList(4, 5)));

        Map<Integer, Set<Integer>> user2Interests = new HashMap<>();
        user2Interests.put(1, new HashSet<>(Arrays.asList(2, 3, 8)));
        user2Interests.put(2, new HashSet<>(Arrays.asList(4, 5)));
        user2Interests.put(3, new HashSet<>(Arrays.asList(6, 7)));

        double firstLevelSimilarity = firstLevelJaccardSimilarity(user1Interests, user2Interests);
        double secondLevelSimilarity = secondLevelJaccardSimilarity(user1Interests, user2Interests);
        double combinedSimilarity = combinedJaccardSimilarity(user1Interests, user2Interests);

        System.out.println("First Level Jaccard Similarity: " + firstLevelSimilarity);
        System.out.println("Second Level Jaccard Similarity: " + secondLevelSimilarity);
        System.out.println("Combined Jaccard Similarity: " + combinedSimilarity);
    }
}