【Spark】PM数据清洗(一)

【Spark】PM数据清洗(一)

准备

数据

在这里插入图片描述
链接: 数据下载.

需求

  • 将同一月份的PM_DongSi累加并且排序

代码实现

import org.apache.commons.lang3.StringUtils
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Spark_Test01 {
  def main(args: Array[String]): Unit = {
    //1、读取文件
    val conf = new SparkConf().setMaster("local[6]").setAppName("test")
    val sc = new SparkContext(conf)
    val sourceRDD = sc.textFile("resource/")
    //2、通过算子处理数据
        //1、抽取数据(年  月  PM)=>((年,月),PM)
        //2、清洗,过滤掉空的字符串,过滤掉NA
        //3、聚合
        //4、排序
    //将年和月看成是key,PM是v
    val resultRDD: RDD[((String, String), Int)] = sourceRDD
       //去除第一行列名
      .filter(!arr.contains(_))
      .map(item => ((item.split(",")(1), item.split(",")(2)), item.split(",")(6)))
      //清洗PM为空的数据,和NA的数据
      .filter(item => StringUtils.isNotEmpty(item._2) && !item._2.equalsIgnoreCase("NA"))
      //转换PM的类型为int
      .map(item => (item._1, item._2.toInt))
      //求日期相同的PM的和
      .reduceByKey((curr, agg) => curr + agg)
      //按照PM值进行排序
      .sortBy(item => item._2)
    //3、获取结果
    resultRDD.foreach(println)
    //4、关闭资源
    sc.stop()
  }
}

部分结果展示

在这里插入图片描述

Spark离线数据清洗可以使用SparkSQL和DataFrame API来实现。具步骤如下: 1.读取数据:使用SparkContext的textFile()方法读取数据文件,返回一个RDD[String]类型的对象。 2.将RDD[String]转换为DataFrame:使用SparkSession的createDataFrame()方法将RDD[String]转换为DataFrame类型的对象。 3.过滤数据:使用DataFrame API中的filter()方法过滤掉不符合条件的数据。 4.处理数据:使用DataFrame API中的各种方法对数据进行处理,例如使用withColumnRenamed()方法重命名列名,使用drop()方法删除不需要的列等。 5.保存数据:使用DataFrame API中的write()方法将处理后的数据保存到指定的文件中。 下面是一个示例代码,假设我们有一个日志文件test.log,其中每行数据由8个字段组成,字段之间使用制表符分隔: ```scala import org.apache.spark.sql.{Row, SparkSession} val spark = SparkSession.builder() .appName("Data Cleaning") .master("local[*]") .getOrCreate() // 读取数据 val linesRDD = spark.sparkContext.textFile("test.log") // 将RDD[String]转换为RDD[Row]的形式,并过滤字段数少于8的日志 val rowRDD = linesRDD.map(_.split("\t")) .filter(_.length == 8) .map(x => Row(x(0).trim, x(1).trim, x(2).trim, x(3).trim, x(4).trim, x(5).trim, x(6).trim, x(7).trim)) // 定义DataFrame的schema val schema = spark.read .option("header", "true") .option("inferSchema", "true") .csv("test.log") .schema // 将RDD[Row]转换为DataFrame val df = spark.createDataFrame(rowRDD, schema) // 对数据进行处理 val cleanedDF = df .withColumnRenamed("col1", "new_col1") .drop("col2") // 保存数据 cleanedDF.write .option("header", "true") .csv("cleaned_data") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值