为什么会出现需要对文件进行压缩?
在Hadoop中,文件需要存储、传输、读取磁盘、写入磁盘等等操作,而文件的大小,直接决定了这些这些操作的速度。
1.压缩的好处和坏处
好处
- 减少存储磁盘空间
- 降低IO(网络的IO和磁盘的IO)
- 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度
坏处
- 由于使用数据时,需要先将数据解压,加重CPU负荷。而且压缩的越狠,耗费的时间越多。
2.压缩格式
支持native表示,hadoop自己提供了功能的实现,而不是依赖外部,如bzip2是不支持native,则表示物理机要另行安装支持bzip2压缩的软件。
3.压缩测试
一个简单的案例对于集中压缩方式之间的压缩比和压缩速度进行一个感观性的认识
测试环境:
8 core i7 cpu
8GB memory
64 bit CentOS
1.4GB Wikipedia Corpus 2-gram text input
压缩比
压缩时间/解压时间