HDFS文件压缩

减少储存文件所需空间,还可以降低其在网络上传输的时间。

hadoop下各种压缩算法的压缩比
压缩算法    原始文件大小  压缩后的文件大小    压缩速度    解压速度
gzip         8.3GB        1.8GB           17.5MB/s   58MB/s
bzip2        8.3GB        1.1GB           2.4MB/s    9.5MB/s
LZO-best     8.3GB        2GB             4MB/s      60.6MB/s
LZO          8.3GB        2.9GB           49.3MB/S   74.6MB/s
1.CodeC
实现了一种压缩解压算法。Hadoop中压缩解压类实现CompressionCodec接口
createOutputStream来创建一个CompressionOutputStream,将其压缩格式写入底层的流 
2.本地库
Hadoop使用java开发,但是有些需求和操作并不适合java,所以引入了本地库 native。可以高效执行某些操作。
如使用gzip压缩解压时,使用本地库比使用java时间要缩短大约10%,解压达到50%。
在hadoop_home/lib/native下hadoop配置文件core-site.xml可以设置是否使用native
<property>
<name>Hadoop.native.lib
<value>true
</property>
默认是启用本地库,如果频繁使用原生库做压解压任务,可以使用codecpool,通过CodecPool的getCompressor方法获得Compressor对象,需要传入Codec 。这样可以节省创建Codec对象开销 ,允许反复使用。
3.如何选择压缩格式
Gzip 优点是压缩率高,速度快。Hadoop支持与直接处理文本一样。缺点不支持split,当文件压缩在128m内,都可以用gzip
Izo  优点压缩速度快 合理的压缩率;支持split,是最流行的压缩格式。支持native库;缺点 比gzip压缩率低,hadoop本身不支持,需要安装;在应用中对lzo格式文件需要处理如 指定inputformat为lzo格式
Snappy压缩 高速压缩率合理支持本地库。不支持split,hadoop不支持 要安装linux没有对应命令;当MR输出数据较大,作为到reduce数据压缩格式 
Bzip2 支持split,很高的压缩率,比gzip高,hadoop支持但不支持native,linux自带命令使用方便。缺点压缩解压速度慢
4、使用哪种压缩和具体应用有关,对于巨大,没有储存边界的文件如日志 可以考虑
1、储存不压缩的文件
2、使用支持切分的储存格式 bzip2
3、在应用中切分,然后压缩,需要选择合理数据块的大小,以确定压缩后的块大小
4、使用顺序文件SF,支持压缩和切分
5、使用Avro数据文件,支持压缩切分并增加了编程语言可读写的优势对于大文件,不应该使用不支持切分的压缩格式,否则失去本地性,造成MR应用效率低下。 
©️2020 CSDN 皮肤主题: 技术黑板 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值