HBase修改压缩格式及Snappy压缩实测分享

转载 2013年12月03日 15:58:39

HBase修改压缩格式及Snappy压缩实测分享

一、要点

有关Snappy的相关介绍可参看Hadoop压缩-SNAPPY算法,如果想安装Snappy,可以参看Hadoop HBase 配置 安装 Snappy 终极教程

1. HBase修改Table压缩格式步骤

2. 实测结果分享

二、HBase修改Table压缩格式步骤

修改HBase压缩算法很简单,只需要如下几步:

1. hbase shell命令下,disable相关表:

1
disable 'test'

实际产品环境中,’test’表可能很大,例如上几十T的数据,disable过程会比较缓慢,需要等待较长时间。disable过程可以通过查看hbase master log日志监控。

2. 修改表的压缩格式

1
alter 'test', NAME => 'f', COMPRESSION => 'snappy'

NAME即column family,列族。HBase修改压缩格式,需要一个列族一个列族的修改。而且这个地方要小心,别将列族名字写错,或者大小写错误。因为这个地方任何错误,都会创建一个新的列族,且压缩格式为snappy。当然,假如你还是不小心创建了一个新列族的话,可以通过以下方式删除:

1
alter 'test', {NAME=>'f', METHOD=>'delete'}

同样提醒,别删错列族,否则麻烦又大了~

3. 重新enable表

1
enable 'test'

4. enable表后,HBase表的压缩格式并没有生效,还需要一个动作,即HBase major_compact

1
major_compact 'test'

该动作耗时较长,会对服务有很大影响,可以选择在一个服务不忙的时间来做。

describe一下该表,可以看到HBase 表压缩格式修改完毕。

二、 实测结果分享

1. 线上有一个稍微大些的表,压测前的大小是

1
2
[xxxx]hadoop fs -du /hbase/tablename
37225209575949    hdfs://xxxx:9000/hbase/tablename

也即33.85613088171249T

2. 等最终major_compact完毕后,数据大小为

[xxxx]hadoop fs -du /hbase/tablename
14910587650937    hdfs://xxxx:9000/hbase/tablename

即剩余13.56110046884805T,压缩掉20.29503041286444T

3. 实测情况下,remaining为:

13.56110046884805/33.85613088171249 = 40.055%

跟网上流传的最好效果22.2%还是有一定差距的。但是Google Snappy官网上也说,为达到更高的压缩速度,Snappy允许损失一些压缩率。

有一点需要说明,因为是线上服务,所以在修改压缩格式后,至comact结束,中间有入库操作,大概有一周到两周的数据入库。也就是说,实际值要比40.055%小一些,但是应该影响不太大。

HBase修改压缩格式及Snappy压缩实测分享

来自:http://www.cnblogs.com/shitouer/p/hbase-table-alter-compression-type-and-snappy-compression-compa...
  • liuxiangke0210
  • liuxiangke0210
  • 2016年12月20日 10:43
  • 260

HBase表数据的压缩率测试

测试结果:HBase压缩率可达1.82 数据来源:使用YCSB向usertable中注入1000万条1KB数据;创建3个空表ATable,BTable,CTable 测试方法: (1)将HBas...
  • ArivnXu
  • ArivnXu
  • 2017年07月18日 09:22
  • 423

hbase测试压缩效果报告

测试环境: Linux master 2.6.18-348.12.1.el5 #1 SMP Wed Jul 10 05:28:41 EDT 2013 x86_64 x86_64 x86_64 GNU/...
  • chenyi8888
  • chenyi8888
  • 2013年11月20日 11:04
  • 4268

Hadoop压缩存储方案对比

三点评价标准1.1. CPU处理能力/处理量 1.2. I/O处理能力 1.3. 网络传输能力 如果数据已经以压缩的格式存储,则不需要再压缩,如jpeg。 存储格式对比: 存储格式 优点 ...
  • dduhmy
  • dduhmy
  • 2016年11月22日 09:53
  • 854

HBase开启Snappy压缩

原文链接:http://www.kissyu.org/2016/10/06/HBase%E5%BC%80%E5%90%AFSnappy%E5%8E%8B%E7%BC%A9/ 背景 HBase是目前...
  • liuxiangke0210
  • liuxiangke0210
  • 2017年03月06日 18:48
  • 2139

Hbase设置Snappy压缩测试

在DT大数据时代,海量数据的存储和分析是一个巨大的挑战,给我们的hadoop或者hbase集群添加数据压缩的能力,是必不可少的,通过压缩我们不但能节约磁盘空间,而且也能节省集群间网络带宽的损耗,从而间...
  • dotedy
  • dotedy
  • 2016年01月02日 23:13
  • 1518

hadoop 压缩工具 比较

hadoop里支持许多压缩算法。压缩的好处主要有两点:1.减少了文件占用的存储空间,原来上T的文件可能压缩完以后只需要两三百G的空间即可;2.文件的体积小了以后,数据传输的速度自然就快了。在现在的大数...
  • bitcarmanlee
  • bitcarmanlee
  • 2016年05月25日 10:12
  • 1152

hadoop中4中常用的压缩格式的特征的比较

1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带...
  • xiaoshunzi111
  • xiaoshunzi111
  • 2016年12月12日 09:22
  • 209

【Hbase】修改Hbase压缩方式,重启一个regionserver

一:hbase压缩主要分为三种 1)HFile block compression on disk:这种压缩方式主要是用在压缩存储在硬盘上的。支持Gzip、LZO、snippy三种数据压缩。后面两种需...
  • s120922718
  • s120922718
  • 2013年03月16日 10:31
  • 4186

HBase修改Table压缩格式步骤

http://www.cnblogs.com/shitouer/p/hbase-table-alter-compression-type-and-snappy-compression-compare....
  • u011955252
  • u011955252
  • 2016年01月16日 14:37
  • 434
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:HBase修改压缩格式及Snappy压缩实测分享
举报原因:
原因补充:

(最多只允许输入30个字)