文章目录
经测试, ZSTD压缩方式 + parquet存储, 与 ORC存储 + snappy压缩的压缩比相差不多
spark.sql("""
SELECT xxx
FROM T
WHERE xxx
""")
.write
.mode("overwrite")
.option("compression", "zstd")
.parquet(s"xxx/{date}/${hour}")
spark.sql("""
SELECT xxx
FROM T
WHERE xxx
""")
.write
.mode("overwrite")
.option("compression", "zstd")
.parquet(s"xxx/{date}/${hour}")