mapreduce常用压缩编码
| 压缩格式 | 是否需要安装 | 文件拓展名 | 是否可以切分 | 性能 | 使用率 |
|---|---|---|---|---|---|
| DEFAULT | 无需安装,直接使用 | .deflate | 否 | ||
| bzip2 | 无需安装 | .bz2 | 是 | ||
| Gzip | 无需安装 | .gz | 否 | 压缩率比较高,且压缩解压缩速度很快 | |
| 。linux中自带gzip命令,使用方便。由于不支持切分(split),使用时需要每个文件压缩后大小在128M(可以灵活去设置快文件大小)以内 | |||||
| LZO | 需要安装 | .lzo | 是 | 压缩解压缩速度比较快,并且压缩率比较合理。支持split,在linux需要进行安装后使用 | |
| Snappy | 需要安装 | .snappy | 否 | 压缩速度很快,并且压缩率合理 | hive中使用率高 |
代码示例
数据压缩–map端
{
//开启map端输出压缩
conf.setBoolean

本文介绍了MapReduce中常用的压缩编码技术,包括如何在map端开启输出压缩以及在reduce端设置输出文件为压缩包的代码示例,帮助理解大数据处理中的数据压缩优化。
最低0.47元/天 解锁文章
220

被折叠的 条评论
为什么被折叠?



