mahout学习之推荐算法

最新推荐文章于 2024-10-09 20:49:27 发布

kevinjqy

最新推荐文章于 2024-10-09 20:49:27 发布

阅读量4.2k

点赞数 2

分类专栏：大数据文章标签：算法

本文链接：https://blog.csdn.net/kevinjqy/article/details/78153157

版权

本文介绍了Apache Mahout中的推荐算法，主要包括基于用户的推荐算法和基于物品的推荐算法。在基于用户的推荐中，讨论了相似性度量方法，如皮尔逊相关系数、欧式距离等，并探讨了用户邻域的选择策略。而在基于物品的推荐中，提到了slope-one算法及其内存考虑。最后，文章指出基于内容的推荐虽在Mahout中涉及较少，但将是未来的发展趋势。

摘要由CSDN通过智能技术生成

基于用户的推荐

算法

基于用户的推荐算法来源与对相似用户爱好的总结，一般过程如下：

for (用户u尚未表达偏好的) 每个物品i
    for（对i有偏好的）每个其他用户v
        计算u和v之间的相似度s
        按权重为s将v对i的偏好并入平均值
return 值最高的物品（按加权平均排序）

看上去挺简单，但是，每个物品都检查速度太慢，一般会先计算出一个最相似用户的领域，然后仅考虑这些用户评价过的物品。

for(每个其他用户w)
    计算用户u与用户w的相似度s
    按相似度排序后，将位置靠前的用户作为领域n
for(n中用户有偏好，而用户u无偏好的)每个物品i
    for（n中用户对i有偏好的）每个其他用户v
        计算用户u与v的相似度s
        按权重s将v对i的偏好计入平均值
return 值最高的物品

mahout的具体实现

根据以上算法，可以具体化为以下步骤：
1. 数据模型，由DataModel实现
2. 用户间的相似性度量，由UserSimilarity实现
3. 用户邻域的定义，由UserNeighborhood实现
4. 推荐引擎，由一个Recommender实现

一个具体的例子如下：

        //存储并计算提供计算所需的偏好，用户以及物品数据
        DataModel model =
                new FileDataModel(new File("D:\\mahoutData\\intro.csv"));
        //比较两个用户之间的相似度
        UserSimilarity similarity =
                new PearsonCorrelationSimilarity(model);
        //明确与给定用户最相似的一组用户
        UserNeighborhood neighborhood = new NearestNUserNeighborhood(2, similarity, model);
        //合并上述所有组件为用户推荐物品
        Recommender recommender = new GenericUserBasedRecommender(
                model, neighborhood, similarity);
        List<RecommendedItem> recommendations =
                recommender.recommend(1, 1);
        for