经典的美国气象数据统计每年最高温spark集群scala命令实现

最新推荐文章于 2023-09-17 01:32:24 发布

Coollibin

最新推荐文章于 2023-09-17 01:32:24 发布

阅读量859

点赞数 1

本文链接：https://blog.csdn.net/Neo_Lee/article/details/88313572

版权

使用Spark Scala读取HDFS上的气象数据，通过map和reduceByKey操作找到每年的最高气温。两种实现方式，一种是直接在map中处理过滤和计算，另一种是先filter再map和reduceByKey，两者执行时间相近。

摘要由CSDN通过智能技术生成

步骤一：读取hdfs上存储的气象数据

val rddall = sc.textFile("hdfs://hadoop01:9000/ncdc/197*/*")
rddall: org.apache.spark.rdd.RDD[String] = hdfs://hadoop01:9000/ncdc/* MapPartitionsRDD[93] at textFile at <console>:24

步骤二：rdd命令获取map，记录各年份不等于9999的气温，保存

scala> val result = map(x=>(x.substring(15,19),{if((x.substring(92,93)).matches("[01459]")){if (x.substring(87,88)=="+"){if(x.substring(88,92)!="9999"){x.substring(88,92)}else{("")}}else {x.substring(87,92)}}else{(" ")}}))
result: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[94] at map at <console>:26

步骤三：对结果进行reduceByKey，获取最高气温

scala> val resultAll = result.reduceByKey((x,y)=>({if(x>y) x else y})).collect

当然，这三步骤也可以合三为一

val rddall = sc.textFile("hdfs://hadoop01:9000/ncdc/197*/*").m