1.常见压缩格式:
gzip,bizp2,LZO,Snappy
2.压缩技术使用原则:
缩小体积则需要更多的CPU计算量,存储数据倾向于大压缩比的压缩技术,根据实际情况选择合适的压缩技术。
3.压缩在大数据计算中的一个重要考量是压缩技术是否支持分割(split)
bzip2支持,LZO创建索引后支持
4.要让Hadoop支持压缩,需要对Hadoop源码进行编译
查看是否支持压缩:hadoop checknative
5.编译Hadoop源码
①软件需求:Maven,JDK,protocolBuffer 2.5.0,cmake 2.6,zlib-devel,openssl-devel
protobuf2.5.0安装:
下载源码:http://linux.linuxidc.com/index.php?folder=MjAxNcTq18rBzy8xMNTCLzEwyNUvQ2VudE9TN8/C08NKREsxLjex4NLrSGFkb29wLTIuNy4xyKu5/bPMz+q94g==
安装编译软件:
sudo yum install gcc
sudo yum install gcc-c++
安装编译protobuf
./configure
make
sudo make install
protoc --version