Spark dataframe写parquet, 并用zstd压缩

最新推荐文章于 2024-10-10 19:45:00 发布

Souvenirser

最新推荐文章于 2024-10-10 19:45:00 发布

阅读量152

点赞数 2

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_39285950/article/details/141642569

版权

文章目录

经测试, ZSTD压缩方式 + parquet存储, 与 ORC存储 + snappy压缩的压缩比相差不多

spark.sql("""
	SELECT xxx
	FROM T
	WHERE xxx
""")
      .write
      .mode("overwrite")
      .option("compression", "zstd")
      .parquet(s"xxx/{date}/${hour}")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Souvenirser

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

理解Spark中SparkSQL模块DataSource的ParquetFiles处理

杨鑫newlife的专栏

05-05

570

Parquet是一种列式存储，许多其他数据处理系统都支持它。 Spark SQL支持读取和写入Parquet文件，这些文件自动保留原始数据的模式。在编写Parquet文件时，出于兼容性原因，所有列都会自动转换为可为空。 1.Loading Data Programmatically import spark.implicits._ val peopleDF = spark.read.js...

[Spark版本更新]--Spark-2.4.0 发布说明

欢迎来到我的博客，一起探索代码里的世界！

11-09

6560

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考： Sub-task [ SPARK-6236 ] - 支持大于2G的缓存块 [ SPARK-6237 ] - 支持上传块> 2GB作为流 [ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测 [ SPARK-11239 ] - 用于ML线性...

参与评论您还未登录，请先登录后发表或查看评论

Flink实战之FileSystem-parquet支持ZSTD压缩

weixin_41608066的博客

10-28

1626

HIVE存储格式和压缩方式详解

weixin_46429290的博客

07-11

2449

引用：https://blog.csdn.net/yizhiniu_xuyw/article/details/113811001LZO压缩算法特点：SNAPPY压缩算法特点：尽管 Snappy 应该相当轻便，但它主要针对 64 位 x86 兼容处理器进行了优化，并且在其他环境中运行速度可能较慢。BZIP2压缩算法特点：HIVE的压缩格式压缩可以存在很多地方，在mr任务运行时候，map端溢写到磁盘，以及reduce端从磁盘中拉取文件，都有大量的IO操作，都可以设置压缩方法。设置压缩格式的参数如下所示HIVE配

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

过往记忆大数据

03-14

3065

背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据，并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的...

parquet压缩格式参数设置以及简单操作

卡奥斯道的博客

09-25

1万+

Parquet 文件会在 gzip 中自动压缩，因为 Spark 变量 spark.sql.parquet.compression.codec 已在默认情况下设置为 gzip。您还可以将压缩编解码器设置为 uncompressed、snappy 或 lzo object Save2Parquet { def main(args: Array[String]): Unit = {

SparkSQL中的Parquet存储格式总结

王义凯的博客

10-31

6595

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时，处于兼容的原因所有的列都被自动转化为了nullable。 1. 读写Parquet文件 2. 分区发现分区表时很...

【spark床头书系列】DataFrameReader可以读取多少种数据？【建议收藏必看】

wang2leee的博客

11-26

564

Spark DataFrame可以读取多少种数据

LinkedIn Spark-TFRecord partitionBy案例实战

段智华的博客

06-20

672

LinkedIn Spark-TFRecord partitionBy案例实战目录Spark将完全支持TFRecordLinkedIn Spark-TFRecord案例体验Spark-TFRecord partitionBy案例实战 Spark将完全支持TFRecord Spark将完全支持TFRecord LinkedIn Spark-TFRecord案例体验 LinkedIn Spark-TFRecord案例体验 Spark-TFRecord partitionBy案例实战 package spark

Zstd、GZip、Snappy等几种压缩方式时间效率对比

Rick的专栏

01-13

1万+

ZSTD 解压缩方式的时间与设置的非压缩的原数据大小有关小文件：KB级别，执行1000次普通文件：kb级别，执行100次大文件：4M+，执行10次 ZSTD：解压缩分配空间等于压缩后的大小*5 结论：Zstd压缩方式压缩比确实要高一些，对于小文件，在耗时上Zstd明显要好于其他的压缩方式，对于大文件耗时上和Snappy差异不大 Small File : Snappy : S...

大数据技术之高频面试题

XIAOMO__的博客

11-12

9076

第一章项目涉及技术 1.1Linux&Shell 1.1.1 Linux常用高级命令序号命令命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写(yum install iotop安装） .

Spark SQL的Parquet那些事儿.docx

大数据星球-浪尖

04-28

1651

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对par...

Hadoop开启Zstd压缩能力

weixin_42414008的博客

07-02

2031

HADOOP-13578(https://issues.apache.org/jira/browse/HADOOP-13578)在Hadoop3中增加了Zstd压缩本地库，需要依赖facebook的Zstd库。编译Hadoop时开启Zstd本地库编译的步骤如下： 1.下载编译并安装Zstd依赖库 wgethttps://github.com/facebook/zstd/releases/download/v1.4.4/zstd-1.4.4.tar.gz tar -xzf z...

zstd 压缩算法

eagooqi的专栏

03-11

9965

1.Ztsandard介绍 Zstandard（或Zstd）是由Facebook的Yann Collet开发的一个无损数据压缩算法，Zstandard在设计上与DEFLATE（.zip、gzip）算法有着差不多的压缩比，但有更高的压缩和解压缩速度。在其官网(https://github.com/facebook/zstd)给出的性能测试中，Zstandard比snappy、lzo等算法有较高的优势。 Compressor name Ratio ...

Zstandard(Zstd)新型压缩算法代替Zlib 简单使用教程

就是记录一下而已

12-07

1万+

Zstandard（缩写为Zstd）是由Facebook的Yann Collet开发的一个无损数据压缩算法。Zstandard在设计上与DEFLATE（.zip、gzip）算法有着差不多的压缩比，但有更高的压缩和解压缩速度。 Zstandard使用字典算法（LZ77）结合熵编码法的有限状态熵（tANS）。—–Wikipedia

Spark & Hive 关于parquet格式文件的区别

搬砖の隔壁老王

09-18

2695

因为数据之前一直都在MySQL库中保存，现在需要将部分数据移到hive库中，由于数据在MySQL是分库分表存储的，试了很多方式直接从MySQL到Hive库中都没有成功，于是，采用spark读取MySQL数据输出到parquet文件中，再load到Hive中，这才遇到了这个问题。将spark输出的parquet文件按分区load到hive中，出现load到hive中的字段比...

几款主流的压缩算法对比Zlib,snappy,lz4