Spark保存Parquet数据,自动转换成目标表数据类型

  /**
   * 列名根据索引位置自动重命名,同名不同数据类型,自动强制转换类型
   *
   * @param df      源dataframe
   * @param sqlName 目标表名
   * @return 转换后的dataframe
   */
  def castDf(df: DataFrame, sqlName: String): DataFrame = {
    val targetSql: String = s"select * from ${sqlName} limit 0"
    val schemaDf = sparkSession.sql(targetSql)
    val schemaMap = schemaDf.schema.fields.map(struct => {
      (struct.name, struct.dataType)
    }).toMap
    var newDF = df

    val sourceFields = df.schema.fieldNames
    val targetFields = schemaDf.schema.fieldNames
    println(s"castDf size -->${sourceFields.size}:${targetFields.size}")
    //将dataFrame对应索引字段重命名
    val size = schemaMap.keySet.size
    Range(0, size)
      .filter(i => !sourceFields(i).equals(targetFields(i)))
      .foreach(i => newDF = newDF.withColumnRenamed(sourceFields(i), targetFields(i)))

    val sourceMap = newDF.schema.fields.map(struct => {
      (struct.name, struct.dataType)
    }).toMap
    //两个schema集合中字段相同但数据类型不同的才需要转换
    targetFields
      .filter(f => !schemaMap.get(f).equals(sourceMap.get(f)))
      .foreach(field => {
        newDF = newDF.withColumn(field, col(field).cast(schemaMap.getOrElse(field, StringType)))
      })
    newDF
  }

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值