第1章 Hadoop数据压缩

本文详细介绍了Hadoop数据压缩的各个方面,包括压缩概述、压缩策略、MR支持的压缩编码,如Gzip、Bzip2、Lzo和Snappy。重点讨论了压缩位置的选择和参数配置,并提供了Map输出端及Reduce输出端压缩的实操案例。
摘要由CSDN通过智能技术生成

1.1 概述

压缩概述

在这里插入图片描述

压缩策略与原则在这里插入图片描述

1.2 MR支持的压缩编码

压缩格式	hadoop自带?	算法	文件扩展名	是否可切分	换成压缩格式后,原来的程序是否需要修改
DEFLATE	是,直接使用	DEFLATE	.deflate	否	和文本处理一样,不需要修改
Gzip	是,直接使用	DEFLATE	.gz	否	和文本处理一样,不需要修改
bzip2	是,直接使用	bzip2	.bz2	是	和文本处理一样,不需要修改
LZO	否,需要安装	LZO	.lzo	是	需要建索引,还需要指定输入格式
Snappy	是,直接使用	Snappy	.snappy	否	和文本处理一样,不需要修改
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示。
压缩格式	对应的编码/解码器

DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较
压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s
http://google.github.io/snappy/
Snappy is a compression/decompression library. It does not aim for maximum compression, or compatibility with any other compression library; instead, it aims for very high speeds and reasonable compression. For instance, compared to the fastest mode of zlib, Snappy is an order of magnitude faster for most inputs, but the resulting compressed files are anywhere from 20% to 100% bigger.On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

1.3 压缩方式选择

1.3.1 Gzip压缩

在这里插入图片描述

1.3.2 Bzip2压缩

在这里插入图片描述

1.3.3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值