(保姆级)Spark气象监测数据分析-步骤2.2计算PM2.5浓度在五大浓度限值区间的分布

这篇博客介绍了如何使用Spark进行气象监测数据的分析,特别是计算PM2.5浓度在五大限值区间的分布。作者提供了所需软件版本、数据集来源以及代码原理,包括数据读取、区间计数和结果存储。并分享了部分关键代码,如Task2函数和主函数的实现。
摘要由CSDN通过智能技术生成

目录

写在前面的话

需要的前瞻知识

用到的软件版本

数据集

代码原理

部分代码

Task2函数的代码(主要部分)

 主函数代码

运行spark

导包

一些Spark信息的和schema的导入

如果spark链接报错

运行结果

总纲

(保姆级)Spark气象监测数据分析-总纲

写在前面的话

首先这篇博客绝对原创。读者遇到编程中的任何问题可以留言,看到了就会回复

需要的前瞻知识

这篇博客是假设读者都是已经安装好了Hadoop,Spark,以及对idea插件等,如果在安装这些大数据软件遇到了困难可以根据版本号在CSDN里搜对应的大数据软件安装

用到的软件版本

Hadoop2.7.7;Java1.8.0;sbt1.4.0;Spark2.4.0;Hive2.1.1;ZooKeeper3.5.10;Python3.7.9

数据集

数据集

也可点击下面的链接

链接:https://pan.baidu.com/s/13T8IHjAjvbsvQtQ01Ro__Q?pwd=494j 
提取码:494j

代码原理

该部分数据分析主要针对PM2.5浓度数据,其中浓度限值区间如表3.1所示,但此处没有严格要求限制为每日数据,而是只使用其区间信息。由于在第六区间及之后,PM2.5浓度数据条目为0,所以仅计算在前五个区间的分布,分析主要包括:
(1)读入res.csv,创建临时视图,从临时视图中选取字段PM2.5监测浓度(μg/m3)
(2)使用count函数计算各个区间的分布数量;
(3)存入新的dataframe,表头为(区间等级,数量)。

部分代码

对于代码我分成了几个部分,有部分代码和之前只有细微差别

Task2函数的代码(主要部分)
  def Task2(df: DataFrame): Unit = {
    df.createOrReplaceTempView("PM25")
    val PM25_total = spark.sql("select `PM2.5监测浓度(μg/m³)` from PM25 " + "where `PM2.5监测浓度(μg/m³)` >= 0" ).count()
    val PM25_1 = spark.sql("select `PM2.5监测浓度(μg/m³)` from PM25 " +  "where `PM2.5监测浓度(μg/m³)` >= 0 and `PM2.5监测浓度(μg/m³)` <= 35" ).count()
    //    println(PM25_total)
    //    println(PM25_1)
    val PM25_2 = 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值