26. Spark DataFrame写入Hive Orc 分区表

最新推荐文章于 2024-08-03 17:21:38 发布

元元的李树

最新推荐文章于 2024-08-03 17:21:38 发布

阅读量2.7k

点赞数 3

文章标签： Spark

本文链接：https://blog.csdn.net/qq0719/article/details/103005275

版权

26.

Spark DataFrame写入Hive Orc 分区表

分区表建立过程不过多演示，只给出写入hive表的过程。

//方法一：
addStgCompanyDF.write.partitionBy("dt").mode(SaveMode.Overwrite).orc("hdfs://XXXX/apps/hive/warehouse/XXXX.db/XXXXX/")

//方法二：
addStgCompanyDF.repartition(1).write.mode(SaveMode.Append).format("orc").insertInto("XXXX.XXXX")  

Overwrite形式举例：
.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("库名.表名")

Append形式举例：
.write.mode(SaveMode.Append).format("orc").insertInto("库名.表名")

分区表Overwrite形式举例：
.write.partitionBy("XX").mode(SaveMode.Overwrite).format("orc").saveAsTable("库名.表名")

分区表append(insertInto)形式举例：
.repartition(1).write.mode(SaveMode.Append).format("orc").insertInto("XXXX.XXXX")

数据写入hdfs后，如果通过hive去查询，表中无数据，还需要使用 msck 修复hive元数据信息。

https://community.hortonworks.com/questions/198754/msck-repair-hive-external-tables.html

https://www.ibm.com/support/knowledgecenter/en/SSCRJT_5.0.1/com.ibm.swg.im.bigsql.commsql.doc/doc/biga_msckrep.html