[大数据]连载No10之Spark算子计算by java

  数据文件示例分别代表(日期 温度 湿度

2017-01-10 14:12:12 34 1
2017-02-10 14:12:12 37 11
2017-02-10 11:12:12 12 23
2017-01-12 04:12:12 35 34
2017-01-10 14:12:12 35 14
2017-02-14 14:12:12 4 1
2017-04-20 14:12:12 9 13
2017-04-10 11:12:12 4 14
2017-04-10 11:12:12 5 13
2017-05-01 14:12:12 3 14
2017-05-12 17:12:12 44 53
。。。。。。。。。

任务一:根据温度来排序,温度相同的按照湿度来排序
计算思路如下图


代码如下
SparkConf conf = new SparkConf()
        .setAppName("weatherJava")
        .setMaster("local[1]");

JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> lineRdd = sc.textFile("weather");

/**
 * 泛型解释
 * String lineRdd中每一条元素的类型
 * SortObj: 返回的Rdd的key的类型
 * String: 返回的key的value
 */
JavaPairRDD<SortObj, String> pairRdd = lineRdd.mapToPair(new PairFunction<String, SortObj, String>() {
    @Override
    public Tuple2<SortObj, String> call(String log) throws Exception {
        //log lineRdd中每一条将记录
        String[] arr = log.split(" ");
        Integer templarter = Integer.valueOf(arr[2]);
        Integer shidu = Integer.valueOf(arr[3]);
        SortObj sortObj = new SortObj(templarter, shidu);
        return new Tuple2<SortObj, String>(sortObj, log);
    }
});

/**
 * 排序
 */
JavaPairRDD<SortObj, String> sordRdd = pairRdd.sortByKey();

/**
 * 循环
 */
sordRdd.foreach(new VoidFunction<Tuple2<SortObj, String>>() {
    @Override
    public void call(Tuple2<SortObj, String> t) throws Exception {
        System.out.println(t._2);

    }
});


任务二:统计每一个月份中,温度最高的前两位
计算思路如下图


代码如下

public static void main(String[] args) {
    SparkConf conf = new SparkConf()
            .setAppName("weatherJava")
            .setMaster("local[1]");

    JavaSparkContext sc = new JavaSparkContext(conf);
    JavaRDD<String> lineRdd = sc.textFile("weather");
    

    /**
     *任务二 : 统计每一个月份中,温度最高的前两位
     */
    JavaPairRDD<String, Integer> mapRdd = lineRdd.mapToPair(new PairFunction<String, String, Integer>() {
        @Override
        public Tuple2<String, Integer> call(String log) throws Exception {
            String[] arr = log.split(" ");
            Integer templarter = Integer.valueOf(arr[2]);
            String data = arr[0].substring(0, 7);
            return new Tuple2<String, Integer>(data, templarter);
        }
    });

    /**
     * 根据月份分组
     */
    JavaPairRDD<String, Iterable<Integer>> groupRdd2 = mapRdd.groupByKey();

    /**
     * 后去每个月top 2
     */
    groupRdd2.mapToPair(new PairFunction<Tuple2<String, Iterable<Integer>>, String, Integer[]>() {
        @Override
        public Tuple2<String, Integer[]> call(Tuple2<String, Iterable<Integer>> list) throws Exception {
            /**
             * 创建长度为2的数据
             */
            Integer[] shidu = new Integer[2];

            Iterator<Integer> iterator = list._2.iterator();

            while (iterator.hasNext()) {
                Integer sd = iterator.next();
                for (int i = 0; i < shidu.length; i++) {
                    if (shidu[i] == null) {
                        shidu[i] = sd;
                        break;
                    } else {
                        if (shidu[i] < sd) {
                            for (int j = shidu.length - 1; j > i; j--) {
                                shidu[j] = shidu[j - 1];
                            }
                            shidu[i] = sd;
                            break;

                        }
                    }
                }
            }

            return new Tuple2(list._1, shidu);
        }
    }).foreach(new VoidFunction<Tuple2<String, Integer[]>>() {
        @Override
        public void call(Tuple2<String, Integer[]> res) throws Exception {
            System.out.println("data:"+res._1+"\tresult:"+res._2[0]+"\t"+res._2[1]);
        }
    });


    sc.stop();


}

计算结果如下


本项目属于机器学习的简单部分,基于为了快速理解机器学习而搭建的人工智能速成项目,大家可以根据其中的项目时间进行相关的学习.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源14

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值