请百度:MapReduce的压缩优化,看看别人的博客!如:
http://www.cnblogs.com/end/archive/2013/01/15/2861448.html(非常不错!)--------》Hive优化
http://blog.csdn.net/ruidongliu/article/details/11690025---------------------------------------》MapReduce优化!
http://blog.csdn.net/wisgood/article/details/8789906---------------------------------------》MapReduce优化!
http://blog.csdn.net/erli11/article/details/40396257
http://www.cnblogs.com/zhengrunjian/p/4527269.html
在实际的项目开发当中,hive表的数据:
存储格式:(RCfile或者Parquet,推荐使用RCfile格式)
数据的压缩算法:snappy!
一、存储格式hive默认支持三种从存储格式,当然用户根据需要可以自定义存储格式。
存储格式 | 优点 | 缺点 |
SEQUENCEFILE | 可压缩可分割二进制文件 | 需要一个合并文件的过程, 且合并后的文件将不方便查看 |
TEXTFILE | 简单 方便查看 | |
RCFILE | 按列查找,理论上对于宽表采用这个比较好 | 比较新,还没有广泛应用 |
二、压缩格式
压缩格式 | 工具 | 算法 | 文件扩展名 | 多文件 | 可分割性 |
DEFLATE* | 无 | DEFLATE | .deflate | 不 | 不 |
Gzip | gzip | DEFLATE | .gz | 不 | 不 |
ZIP | zip | DEFLATE | .zip | 是 | 是,在文件范围内 |
bzip2 | bzip2 | bzip2 | .bz2 | 不 | 是 |
LZO | lzop | LZO | .lzo | 不 | 不 |