- 博客(2)
- 收藏
- 关注
原创 RDD编程初级实践
要求 1.pyspark交互式编程 本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStructure,80 …… 请根据给定的实验数据,在pyspark中通过编程来计算以下内容: (1)该系总共有多少学生; (2)该系共开设了多少门课程; (3)Tom同学的总成绩平均分是多少
2021-06-10 21:01:11 486
原创 Hadoop综合大作业
要求 1.将待分析的文件(不少于10000英文单词)上传到HDFS 2.调用MapReduce对文件中各个单词出现的次数进行统计 3.将统计结果下载本地。 4.写一篇博客描述你的分析过程和分析结果。 执行过程 1.我们需要先启动Hadoop,执行如下命令。启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: 成功启动后,可以访问 Web 界面 http://localhost:9870 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。
2020-12-17 14:47:42 1222 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人