高职大数据赛项离线数据清洗

在本次高职大数据赛项中,参赛者需要使用 Scala 编写代码,将 ods 库的 customer,nation,region,supplier 表数据清洗后导入 Hive 的 dwd 库。针对 timestamp 类型字段,格式统一调整为 yyyy-MM-dd HH:mm:ss,不足位用0填充。任务一具体要求是将 ods 的 customer 表数据抽取到 dwd 的 dim_customer 分区表,添加特定字段并填充默认值,同时确保数据类型转换正确。在 Hive CLI 中验证前1条数据,结果将作为提交内容之一。
摘要由CSDN通过智能技术生成

任务一:数据清洗

编写 Scala 工程代码,将 ods 库中表 customer,nation,region,supplier 全量抽取到 Hive 的 dwd 库中对应表中。表中有涉及到 timestamp 类型的,均要 求按照 yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时 分秒的位置添加 00:00:00,添加之后使其符合 yyyy-MM-dd HH:mm:ss。 1、 将 ods 库中 customer 表数据抽取到 dwd 库中 dim_customer 的分区表,分区 字段为 etldate 且值与 ods 库的相对应表该值相等,并添加 dwd_insert_user、 dwd_insert_time 、 dwd_modify_user 、 dwd_modify_time 四 列 , 其 中 dwd_insert_user、dwd_modify_user 均填写“user1”,dwd_insert_time、 dwd_modify_time 均填写当前操作时间(年月日必须是今天,时分秒只需在 比赛时间范围内即可),并进行数据类型转换。在 hive cli 中按照 cust_key 顺序排序,查询 dim_customer 前 1 条数据,将结果内容复制粘贴至客户端 桌面【Release\模块 C 提交结果.docx】中对应的任务序号下

    System.setProperty("HADOOP_USER_NAME", "root")
    val spark = SparkSession
      .builder()
      .master("local[*]")
      .appName("dwd")
      .config("spark.sql.war
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

逍遥哥哥每天都要努力啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值