第1章 Hadoop数据压缩

三成讲技术

于 2022-09-02 14:43:27 发布

阅读量63

点赞数

分类专栏： hadoop 文章标签： hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/qq_26489043/article/details/126661569

版权

本文详细介绍了Hadoop数据压缩的各个方面，包括压缩概述、压缩策略、MR支持的压缩编码，如Gzip、Bzip2、Lzo和Snappy。重点讨论了压缩位置的选择和参数配置，并提供了Map输出端及Reduce输出端压缩的实操案例。

摘要由CSDN通过智能技术生成

1.1 概述

压缩概述

在这里插入图片描述

压缩策略与原则

1.2 MR支持的压缩编码

压缩格式	hadoop自带？	算法	文件扩展名	是否可切分	换成压缩格式后，原来的程序是否需要修改
DEFLATE	是，直接使用	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是，直接使用	DEFLATE	.gz	否	和文本处理一样，不需要修改
bzip2	是，直接使用	bzip2	.bz2	是	和文本处理一样，不需要修改
LZO	否，需要安装	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	是，直接使用	Snappy	.snappy	否	和文本处理一样，不需要修改
为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器，如下表所示。
压缩格式	对应的编码/解码器

DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较
压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s
http://google.github.io/snappy/
Snappy is a compression/decompression library. It does not aim for maximum compression, or compatibility with any other compression library; instead, it aims for very high speeds and reasonable compression. For instance, compared to the fastest mode of zlib, Snappy is an order of magnitude faster for most inputs, but the resulting compressed files are anywhere from 20% to 100% bigger.On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.