sparkRDD转DataFrame写hive的坑

最新推荐文章于 2024-04-09 10:05:05 发布

Sivan呀

最新推荐文章于 2024-04-09 10:05:05 发布

阅读量596

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/SivanL/article/details/117594637

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在使用Spark将RDD转换为DataFrame并写入Hive时，必须确保DataFrame的字段顺序与Hive表的建表顺序一致，否则会导致数据错乱。即使字段类型不匹配，Spark也不会报错，仍然会继续写入Hive。对于分区表，分区字段应在schema的最后。注意这些细节可以避免数据写入问题。

摘要由CSDN通过智能技术生成

在RDD使用schema和RDD的Row转成DataFrame再写到hive时，中间遇到一个坑，

我的写入代码是这样

// 创建schema
val schema: types.StructType = StructType(
  Seq(
    StructField("capture_time",IntegerType,true),
    StructField("color_id",IntegerType,true),
    StructField("location_id",LongType,true),
    StructField("license_plate",StringType,true)
  )
)

 
// 数据转为Row
val rowRDD: RDD[Row] = dataRDD.map(data => {
  val seq = Seq(data.getIntValue("capture_time"),
    data.getIntValue("color_id"),
    data.getLongValue("location_id"),
    data.getString("license_plate"))
  Row.fromSeq(seq)
})

 
// 转df
val carDF = sparkSession.createDataFrame(rowRDD,schema)

 
// 写库
carDF.write
    .mode(SaveMode.Append)
    .save()

写hive一定要注意，df的字段顺序一定要和hive建表顺序一致，也就是在创建schema的时候就要保证顺序和hive的建表顺序一致，否则会出现hive的数据错乱的情况，字段和值对应不上。而且很坑的是即使类型错了，spark也不报错，还是继续往hive写。

hive的分区表，往往分区字段在最后一个字段，所以也要保证这里分区字段在schema的最后一个

Sivan呀

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sparkRDD转DataFrame写hive的坑

在RDD使用schema和RDD的Row转成DataFrame再写到hive时，中间遇到一个坑，我的写入代码是这样// 创建schemaval schema: types.StructType = StructType( Seq( StructField("capture_time",IntegerType,true), StructField("color_id",IntegerType,true), StructField("locati...
复制链接

扫一扫

专栏目录