一、环境要求
Hadoop+Hive+Spark+HBase 开发环境。
四、功能要求
1.数据准备 请在 HDFS 中创建目录/app/data/exam,并将 countrydata.csv 传到该目录。
2.在 Spark-Shell 中,加载 HDFS 文件系统 countrydata.csv 文件,并使用 RDD 完成以下 统计计算。
[root@gree2 exam]# hdfs dfs -put ./countrydata.csv /app/data/exam
scala> val countryRdd=sc.textFile("/app/data/exam/countrydata.csv")
①统计每个国家在数据截止统计时的累计确诊人数。
scala> countryRdd.map(x=>x.split(",")).map(x=>(x(4),x(1).toInt)).reduceByKey((x,y)=>if(x>y) x else y).collect.foreach(println)
②统计全世界在数据截止统计时的总感染人数。
scala> countryRdd.map(x=>x.split(",")).map(x=>(x(4),x(1).toInt)).reduceByKey((x,y)=>if(x>y) x else y).reduce