hadoop集群上压缩后运行总结

原创 2013年12月04日 10:28:48

我们数据组通过三周的努力,整个集群都变成了可压缩各种模式。

具体操作:

hbase的数据迁移,hive的数据迁移

首先说说hbase的数据迁移,数据采用了Gz的压缩模式并且rowkey进行了调整后,整个hbase集群region的分布更加合理,主要是从以下几个方面:

1、磁盘空间利用率提高了,现在压缩后,占用300多个GB的空间

2、region大小更加均衡(不会出现之前的有些region大小几个GB,有些region大小是几百MB)

3、region的request请求数更加均衡(不会出现之前的有些region请求数在几百个,有些region的请求数在几万个

4、客户端写数据时,不会出现1-2分钟的暂停时间(之前就是因为这个暂停时间,导致写数据的吞吐量上不来)

5、每个regionserver节点的socket连接数也更加均衡

6、数据流转提升很高,现在很多数据在整体半个小时之内就可以转到hive库中

7、hbase集群运行很稳定不会出现波动(这里我是指compaction操作的频繁度)

8、在hbase集群进行只有读写操作时,各节点CPU使用率不超过20%(注:依据具体的硬件环境来测试的)

9、hbase节点日志量很小,如下图:

没压缩前,都是几百MB甚至上GB;而压缩后,日志量一天还不到2MB。

以上就是这次hbase的压缩后的体会

 

目前hive迁移正在进行中,目前有以下几个方面:

1、数据源压缩,测试下来发现Gz比bz的效果好(因为bz占用CPU较高)

2、采用了rcfile,结合gz、snappy、lzo的各种压缩模式,提升了计算效率

目前还需要继续观察其稳定性,后续将对此进行完善。

 详细参考另一篇问题描述的blog。

后面说下在hbase和hive使用压缩后,带来的问题:

1、就是CPU消耗很大,最初的一两天regionserver经常自动退出(目前我们hbase与hive是共享HDFS的,最终检查下来是当前资源已经达到了最大,需要进行调整)

2、参考另一篇blog《hive在实际运行压缩模式中出现的问题》

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

事件生成JOB调优笔记(spark streaming)

业务场景: 有三种原始日志,其中一种是告警日志取名为evt(用event_id和device_ip标记为唯一的一条,会不断发送相同的告警,但end_time、severity会变化),另外有两种流量日...

hadoop集群job出现一个奇怪的问题

今天集群的job运行出现了一个奇怪的问题,集群监控如下: 通过各个节点的执行状态,日志信息如下: 2013-12-20 06:38:49,580 [Main Thread] INFO org.apa...

Hadoop集群-WordCount运行详解

  • 2014年09月02日 10:33
  • 4.36MB
  • 下载

Eclipse打包mapreduce程序并提交至hadoop集群运行

在命令行里能够将程序运行在hadoop集群环境后,

Hadoop集群(第6期)_WordCount运行详解【转载】

1、MapReduce理论简介 1.1 MapReduce编程模型   MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节...

Hadoop集群(第6期)_WordCount运行详解

1、MapReduce理论简介   1.1 MapReduce编程模型   MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,...

Hadoop集群 WordCount运行详解

文章来源:虾皮工作室http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1、MapReduce理论简介   ...

Hadoop集群WordCount运行步骤详细图解

1.MapReduce运行原理图

hadoop集群运行小程序wordCount记录

1.在Linux下编写程序 WordCountMapper 分配任务import java.io.IOException;import org.apache.hadoop.io.LongWritab...

windows下idea编写WordCount程序,并打jar包上传到hadoop集群运行

前提条件 1.已在虚拟机中安装了hadoop集群环境                   版本                          windows 10                 ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hadoop集群上压缩后运行总结
举报原因:
原因补充:

(最多只允许输入30个字)