PySaprk 将 DataFrame 数据保存为 Hive 分区表

最新推荐文章于 2022-07-06 23:01:48 发布

XnCSD

最新推荐文章于 2022-07-06 23:01:48 发布

阅读量7.2k

点赞数 1

分类专栏： pyspark 文章标签： PySpark Hive

本文链接：https://blog.csdn.net/XnCSD/article/details/94027895

版权

PySaprk 将 DataFrame 数据保存为 Hive 分区表

创建 SparkSession

from pyspark.sql import SparkSession

spark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()
sc = spark.sparkContext
hc = HiveContext(sc)

1. Spark创建分区表

# 可以将append改为overwrite，这样如果表已存在会删掉之前的表，新建表
df.write.saveAsTable(save_table, mode='append', partitionBy=['pt_day'])

saveAsTable 会自动创建hive表，partitionBy指定分区字段，默认存储为 parquet 文件格式。对于从文件生成的DataFrame，字段类型也是自动转换的，有时会转换成不符合要求的类型。

需要自定义字段类型的，可以在创建DataFrame时指定类型：

from pyspark.sql.types import StringType, StructType, BooleanType, StructField

schema = StructType([
    StructField("vin", StringType(), True),
    StructField("cust_id", StringType(), True),
    StructField("is_maintain

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

XnCSD

关注关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
PySaprk 将 DataFrame 数据保存为 Hive 分区表

PySaprk 将 DataFrame 数据保存为 Hive 分区表创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()sc = spark.sparkContexthc =...
复制链接

扫一扫