经典的美国气象数据统计每年最高温spark集群scala命令实现

步骤一: 读取hdfs上存储的气象数据

val rddall = sc.textFile("hdfs://hadoop01:9000/ncdc/197*/*")
rddall: org.apache.spark.rdd.RDD[String] = hdfs://hadoop01:9000/ncdc/* MapPartitionsRDD[93] at textFile at <console>:24

步骤二:rdd命令获取map,记录各年份不等于9999的气温,保存

scala> val result = map(x=>(x.substring(15,19),{if((x.substring(92,93)).matches("[01459]")){if (x.substring(87,88)=="+"){if(x.substring(88,92)!="9999"){x.substring(88,92)}else{("")}}else {x.substring(87,92)}}else{(" ")}}))
result: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[94] at map at <console>:26

步骤三:对结果进行reduceByKey,获取最高气温

scala> val resultAll = result.reduceByKey((x,y)=>({if(x>y) x else y})).collect

 

当然,这三步骤也可以合三为一

val rddall = sc.textFile("hdfs://hadoop01:9000/ncdc/197*/*").m

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值