spark算法个人笔记(java版写法不是scala)

测试使用的协同过滤使用的算法

注意.sort方法 .subList方法 都会是集合序列化失败。没有序列化 spark 做不了计算
要解决可以用本人的方法。或者去我的另外一篇文章查看:java文章-点击我一下

package com.hgj.recommend;

import com.alibaba.fastjson.JSON;
import com.hgj.common.util.LogPrintUtil;
import com.hgj.recommend.pojo.vo.MovieScore;
import com.hgj.recommend.pojo.vo.UserRecs;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.mllib.recommendation.ALS;
import org.apache.spark.mllib.recommendation.MatrixFactorizationModel;
import org.apache.spark.mllib.recommendation.Rating;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import scala.Tuple2;

import javax.annotation.Resource;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.stream.Collectors;


@SpringBootTest
class RecommendApplicationTests {

    @Resource
    private JavaSparkContext sc;

    @Test
    void contextLoads() {

        List<Rating> ratingList = new ArrayList<>();
        for (int i = 0; i < 200; i++) {
            ratingList.add(new Rating(i, 10 + i, i));
        }

        JavaRDD<Rating> parallelize = sc.parallelize(ratingList);

        JavaRDD<Integer> uidList = sc.parallelize(ratingList.stream().map(Rating::user).collect(Collectors.toList()));
        JavaRDD<Integer> midList = sc.parallelize(ratingList.stream().map(Rating::product).collect(Collectors.toList()));

        int rank = 50;
        int iterations = 5;
        double lambda = 0.01;

        MatrixFactorizationModel train = ALS.train(parallelize.rdd(), rank, iterations, lambda);

        //制作笛卡尔积 用户-物品
        JavaPairRDD<Integer, Integer> cartesian = uidList.cartesian(midList);

        //根据协同过滤筛选出全部的数据
        JavaRDD<Rating> predict = train.predict(cartesian);

        List<UserRecs> collect = predict
                .filter(rating -> rating.rating() > 0)
                .mapToPair(rating -> new Tuple2<Integer, Tuple2<Integer, Double>>(
                                rating.user(),
                                new Tuple2<Integer, Double>(
                                        rating.product(),
                                        rating.rating())
                        )
                )
                .groupByKey()
                .map(res -> {
                    UserRecs userRecs = new UserRecs();
                    userRecs.setUid(res._1);
                    List<MovieScore> movieScores = new ArrayList<>();
                    for (Tuple2<Integer, Double> next : res._2) {
                        MovieScore movieScore = new MovieScore();
                        movieScore.setMid(next._1);
                        movieScore.setRating(next._2);
                        movieScores.add(movieScore);
                    }
                    
                    movieScores.sort((o1, o2) -> -(o1.getRating().intValue() - o2.getRating().intValue()));

                    if (movieScores.size() > 100) {
                        movieScores = movieScores.subList(0, 5);
                    }

					//大家肯定好奇为什么 我还要用JSON转一下数据。原因:.sort方法 .subList方法 都会是集合序列化失败。没有序列化 spark 做不了计算
                    userRecs.setMovieScores(
                            JSON.parseArray(
                                    JSON.toJSONString(movieScores),
                                    MovieScore.class
                            )
                    );
                    return userRecs;
                })
                .collect();
        LogPrintUtil.logRes(JSON.toJSONString(collect));
    }

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

尘叶风凌

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值