![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据实训
文章平均质量分 91
上课所讲内容
.qqq.
这个作者很懒,什么都没留下…
展开
-
Spark RDD案例:统计每日新增用户(大数据实训04)
目录一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得到每日新增用户数(六)让输出结果按日期升序2022-01-01,mike2022-01-01,alice2022-01-01,brown2022-01-02,mike2022-01-02,alice2022-01-02,green2022-01-03,alice2022-01-03,smith2022-0原创 2022-06-20 19:38:22 · 300 阅读 · 0 评论 -
Spark RDD案例:词频统计(大数据实训01)
单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。预备工作:启动集群的HDFS与SparkHDFS上的单词文件 - 设置项目信息(项目名称、保存位置、组编号以及项目编号) 单击【Finish】按钮将目录改成目录.原创 2022-06-15 16:53:30 · 690 阅读 · 0 评论 -
Spark SQL案例:计算平均分(大数据实训03)
有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分Python成绩表 - 1 张三丰 892 李孟达 953 唐雨涵 924 王晓云 935 张晓琳 886 佟湘玉 887 杨文达 668 陈燕文 98 Spark成绩表 - Django成绩表 - 期望输出结果如下所示:1 张三丰 81.332 李孟达 88.673 唐雨涵 92.674 王晓云 85.005 张晓琳 86.676 佟湘玉 82.337 杨文达 82.原创 2022-06-17 14:55:25 · 987 阅读 · 0 评论 -
Spark RDD案例:分组排行榜(大数据实训02)
目录一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件四)创建分组排行榜单例对象(五)本地运行程序,查看结果(六)交互式操作查看中间结果1、读取成绩文件得到RDD2、利用映射算子生成二元组构成的RDD3、按键分组得到新的二元组构成的RDD4、按值排序,取前三5、按指定格式输出结果 张三丰 90李孟达 85张三丰 87王晓云 93李孟达 65张三丰 76王晓云 78李孟达 60张三丰 94王晓云 97李孟达 88张三丰 80王晓云 88原创 2022-06-15 17:07:36 · 765 阅读 · 0 评论