三点评价标准
1.1. CPU处理能力/处理量
1.2. I/O处理能力
1.3. 网络传输能力如果数据已经以压缩的格式存储,则不需要再压缩,如jpeg。
存储格式对比:
存储格式 优点 缺点 是否可切分 建议用途 备注 GZIP 压缩率高 CPU使用率高,压缩慢 × 冷数据 BZIP2 压缩率高,部分文件格式甚至比GZIP高 CPU使用率高,压缩慢,HBase不支持 √ 冷数据 LZO 压缩快 压缩率低,原生不支持,需要额外安装 √ 热数据 因为使用GPL协议,所以一般不自带。有条件地可拆分。 LZ4 压缩快,解压速度比LZO更快 压缩率比LZO略低 × 热数据 Snappy 压缩快,普遍比LZO更快,原生支持 压缩率低 × 热数据 Snappy文件块不可拆分,但是在container file format里面的Snappy块是可以拆分的,例如Avro和SequenceFile。Snappy一般也需要和一个container file format一起使用。 MapReduce中可以单独指定mapper和reducer分别使用何种形式的压缩。
Hadoop压缩存储方案对比
最新推荐文章于 2024-05-14 10:36:35 发布