spark & 文件压缩

最新推荐文章于 2021-12-01 16:47:11 发布

breeze_lsw

最新推荐文章于 2021-12-01 16:47:11 发布

阅读量9.8k

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/lsshlsw/article/details/51992569

版权

Spark 专栏收录该内容

90 篇文章 7 订阅

订阅专栏

hdfs中存储的文件一般都是多副本存储，对文件进行压缩，不仅可以节约大量空间，适当的存储格式还能对读取性能有非常大的提升。

文本文件压缩

bzip2

压缩率最高，压缩解压速度较慢，支持split。

import org.apache.hadoop.io.compress.BZip2Codec
rdd.saveAsTextFile("codec/bzip2",classOf[BZip2Codec])

snappy

json文本压缩率 38.2%，压缩和解压缩时间短。

import org.apache.hadoop.io.compress.SnappyCodec
rdd.saveAsTextFile("codec/snappy",classOf[SnappyCodec])

gzip

压缩率高，压缩和解压速度较快，不支持split，如果不对文件大小进行控制，下次分析可能可能会造成效率低下的问题。
json文本压缩率23.5%，适合使用率低，长期存储的文件。

import org.apache.hadoop.io.compress.GzipCodec
rdd.saveAsTextFile("codec/gzip",classOf[GzipCodec])

parquet文件压缩

parquet为文件提供了列式存储，查询时只会取出需要的字段和分区，对IO性能的提升非常大，同时占用空间较小，即使是parquet的uncompressed存储方式也比普通的文本要小的多。

spark中通过sqlContext.write.parquet("path")
对parquet文件进行存储，默认使用的gzip压缩方式。

可以通过spark.sql.parquet.compression.codec参数或是在代码中进行修改。

parquet存储提供了lzo,gzip,snappy,uncompressed四种方式。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

breeze_lsw

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark读取压缩文件

主要分享大数据相关的知识，如Spark、Hudi

06-05

1万+

转载请务必注明原创地址为：https://dongkelun.com/2018/05/30/sparkGZ/ 前言本文讲如何用spark读取gz类型的压缩文件，以及如何解决我遇到的各种问题。 1、文件压缩下面这一部分摘自Spark快速大数据分析：在大数据工作中，我们经常需要对数据进行压缩以节省存储空间和网络传输开销。对于大多数Hadoop输出格式来说，我们可以指定一种压缩编......

【Spark-HDFS小文件合并】使用 Spark 实现 HDFS 小文件合并

最新发布

weixin_53543905的博客

12-26

1481

需求描述：1、使用 Spark 做小文件合并压缩处理。2、实际生产中相关配置、日志、明细可以记录在 Mysql 中。3、core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xmlx 等文件放在项目的 resources 目录下进行认证。4、下面的案例抽取出了主体部分的代码，具体实现时需要结合 HDFS 工具类，利用好 Mysql 做好配置、日志、以及相关明细，结合各自业务进行文件合并。 2）代码实现 2.1.HDFSUtils 2.2.MergeFile

参与评论您还未登录，请先登录后发表或查看评论

基于CDH5集群配置snappy压缩

Ganymede的Hadoop世界

11-04

2460

基于CDH5集群配置snappy压缩

实用详解spark的读取方法textFile和wholeTextFiles

云上的听者

10-12

1万+

textFile()和wholeTextfile()之间的区别，用测试数据和测试结果来证明。

Spark每日半小时（20）——文件压缩

DK_ing的博客

06-19

473

在大数据工作中，我们经常需要对数据进行压缩以节省空间和网络传输开销。对于大多数Hadoop输出格式来说，我们可以指定一种压缩编解码器来压缩数据。我们已经提过，Spark原生的输入方式（textFile和sequenceFile）可以自动处理一些类型的压缩。在读取压缩后的数据时，一些压缩编解码器可以推测压缩类型。这些压缩选项只适用于支持压缩的Hadoop格式，也就是那些写出到文件系统的格式。写入...

Spark读取压缩文件性能分析

纸房子

08-23

2318

引言 HDFS上分布式文件存储，成为大数据平台首选存储平台。而Spark往往以HDFS文件为输入，为保持兼容性，Spark支持多种格式文件读取，大数据场景下，性能瓶颈往往是IO，而不是CPU算力，所以对文件的压缩处理成为了很必要的手段。Spark为提供兼容性，同时支持多种压缩包直接读取，方便于用户使用，不用提前对压缩格式处理，但各种压缩格式各有优缺点，若不注意将导致Spark的能力无法发挥出来。故...

Spark&Scala安装教程.docx

09-14

- **复制配置文件**: 使用`sudo cp spark-env.sh.template spark-env.sh`复制配置文件。 - **编辑配置文件**: - `SCALA_HOME`: 指定Scala的安装路径。 - `JAVA_HOME`: 指定Java的安装路径。 - `HADOOP_HOME`: ...

第四章Spark&Scala的集成开发环境.docx

10-18

Spark小文件异步合并工具

09-25

然而，当处理大量小文件时，由于Spark的Task数量与文件数量成正比，过多的小文件会导致任务调度和执行效率低下，增加了不必要的开销。为了解决这个问题，出现了"Spark小文件异步合并工具"，它是一个用Java编写的实用...

spark的压缩使用和简单介绍

zeng6325998的博客

10-30

2584

总览今天碰到了一个spark sql 压缩的问题，所以今天来讲一下spark的压缩一切参考spark2.4.1版本来讲解 spark 压缩分为3块，rdd压缩 broadcast压缩和spark sql的压缩 1、rdd 压缩 spark.rdd.compress Whether to compress serialized RDD partitions (e.g. for StorageLevel.MEMORY_ONLY_SER in Java and Scala or StorageLe

spark参数总结

onway_goahead的博客

12-01

2646

0.Spark Driver SparkSession.builder() .enableHiveSupport() //.appName("pipeline") .config("spark.warehouse.dir", new File("spark-warehouse").getPath) //.config("spark.shuffle.service.enabled", true) // 配合spark.dynamicAllo

Spark——DataFrame 读写和保存数据

静远小和尚的博客

07-15

5813

原文链接：https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6849695183043297804 本文主要从以下几个方面介绍Spark中的DataFrame读写和保存第一，DataFrame的介绍第二，Spark所支持的读写文件格式及示例第一，DataFrame的介绍 DataFrame的前身是SchemaRDD，从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是：Data

spark 输出结果压缩（gz）

Rocky

01-23

4660

如果不想往下看，可以直接看结果：maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩，没错。就只这么一行简单的代码实现了gz压缩，但是为什么网上一直没找到呢，这个我不太清楚，可能是他们没碰到吧。最近项目的需求，其实很简单，就是将输出结果以.gz的格式压缩，每个压缩包的大小不能超过100M,而且压缩包的名称也

Spark 性能相关参数配置详解－压缩与序列化篇

热门推荐

colorant的专栏

08-19

2万+

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 压缩与序列化篇

Hive支持的文件格式与压缩算法(1.2.1)

houzhizhen的专栏

11-09

3871

概述只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等)，Hive都可以按预期读取并解析数据，提供SQL功能。 SequenceFile本身的结构已经设计了内容进行压缩。所以对于SequenceFile文件的压缩，并不是先生成SequenceFile文件，再对文件进行压缩。而是生成SequenceFile文件时，对其中的内容字段进行

spark 参数调优3-Shuffle Behavior

Deegue

08-31

1万+

spark参数调优系列目录地址： https://blog.csdn.net/zyzzxycj/article/details/81011540 ③ Shuffle Behavior spark.reducer.maxSizeInFlight 默认48m。从每个reduce任务同时拉取的最大map数，每个reduce都会在完成任务后，需要一个堆外内存的缓冲区来存放结果，如果没有...

spark RDD算子（十一）之RDD Action 保存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等

Joie_TJ的博客

11-11

768

saveAsTextFile def saveAsTextFile(path: String): Unit def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit saveAsTextFile用于将RDD以文本文件的格式存储到文件系统中。 codec参数可以指定压缩的类名。

Apache Spark在SnappyData支持即时SQL分析

sunsi001的博客

05-01

830

2016年5月13日-15日，由CSDN重磅打造的2016中国云计算技术大会（CCTC 2016）将于5月13日-15日在北京举办，今年大会特设“中国Spark技术峰会”、“Container技术峰会”、“OpenStack技术峰会”、“大数据核心技术与应用实战峰会”四大技术主题峰会，以及“云计算核心技术架构”、“云计算平台构建与实践”等专场技术论坛。大会讲师阵容囊括Intel、微软、IBM...

spark df输出压缩文件

03-21

可以使用以下代码将 Spark DataFrame 输出为压缩文件： ```python df.write.format('csv').option('compression', 'gzip').save('output_path') ``` 其中，'csv' 表示输出格式为 CSV 文件，'gzip' 表示使用 Gzip 压缩算法，'output_path' 是输出文件路径。您可以根据需要修改这些参数。