高职大数据赛项离线数据清洗

最新推荐文章于 2024-01-10 16:15:09 发布

逍遥哥哥每天都要努力啊

最新推荐文章于 2024-01-10 16:15:09 发布

阅读量1.3k

点赞数 1

分类专栏：高职大数据竞赛文章标签： hadoop 大数据 hive

本文链接：https://blog.csdn.net/qq_54737884/article/details/128709828

版权

在本次高职大数据赛项中，参赛者需要使用 Scala 编写代码，将 ods 库的 customer，nation，region，supplier 表数据清洗后导入 Hive 的 dwd 库。针对 timestamp 类型字段，格式统一调整为 yyyy-MM-dd HH:mm:ss，不足位用0填充。任务一具体要求是将 ods 的 customer 表数据抽取到 dwd 的 dim_customer 分区表，添加特定字段并填充默认值，同时确保数据类型转换正确。在 Hive CLI 中验证前1条数据，结果将作为提交内容之一。

摘要由CSDN通过智能技术生成

任务一：数据清洗

编写 Scala 工程代码，将 ods 库中表 customer，nation，region，supplier 全量抽取到 Hive 的 dwd 库中对应表中。表中有涉及到 timestamp 类型的，均要求按照 yyyy-MM-dd HH:mm:ss，不记录毫秒数，若原数据中只有年月日，则在时分秒的位置添加 00:00:00，添加之后使其符合 yyyy-MM-dd HH:mm:ss。 1、将 ods 库中 customer 表数据抽取到 dwd 库中 dim_customer 的分区表，分区字段为 etldate 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、 dwd_insert_time 、 dwd_modify_user 、 dwd_modify_time 四列 , 其中 dwd_insert_user、dwd_modify_user 均填写“user1”，dwd_insert_time、 dwd_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），并进行数据类型转换。在 hive cli 中按照 cust_key 顺序排序，查询 dim_customer 前 1 条数据，将结果内容复制粘贴至客户端桌面【Release\模块 C 提交结果.docx】中对应的任务序号下

    System.setProperty("HADOOP_USER_NAME", "root")
    val spark = SparkSession
      .builder()
      .master("local[*]")
      .appName("dwd")
      .config("spark.sql.war