hadoop集群上压缩后运行总结

原创 2013年12月04日 10:28:48

我们数据组通过三周的努力,整个集群都变成了可压缩各种模式。

具体操作:

hbase的数据迁移,hive的数据迁移

首先说说hbase的数据迁移,数据采用了Gz的压缩模式并且rowkey进行了调整后,整个hbase集群region的分布更加合理,主要是从以下几个方面:

1、磁盘空间利用率提高了,现在压缩后,占用300多个GB的空间

2、region大小更加均衡(不会出现之前的有些region大小几个GB,有些region大小是几百MB)

3、region的request请求数更加均衡(不会出现之前的有些region请求数在几百个,有些region的请求数在几万个

4、客户端写数据时,不会出现1-2分钟的暂停时间(之前就是因为这个暂停时间,导致写数据的吞吐量上不来)

5、每个regionserver节点的socket连接数也更加均衡

6、数据流转提升很高,现在很多数据在整体半个小时之内就可以转到hive库中

7、hbase集群运行很稳定不会出现波动(这里我是指compaction操作的频繁度)

8、在hbase集群进行只有读写操作时,各节点CPU使用率不超过20%(注:依据具体的硬件环境来测试的)

9、hbase节点日志量很小,如下图:

没压缩前,都是几百MB甚至上GB;而压缩后,日志量一天还不到2MB。

以上就是这次hbase的压缩后的体会

 

目前hive迁移正在进行中,目前有以下几个方面:

1、数据源压缩,测试下来发现Gz比bz的效果好(因为bz占用CPU较高)

2、采用了rcfile,结合gz、snappy、lzo的各种压缩模式,提升了计算效率

目前还需要继续观察其稳定性,后续将对此进行完善。

 详细参考另一篇问题描述的blog。

后面说下在hbase和hive使用压缩后,带来的问题:

1、就是CPU消耗很大,最初的一两天regionserver经常自动退出(目前我们hbase与hive是共享HDFS的,最终检查下来是当前资源已经达到了最大,需要进行调整)

2、参考另一篇blog《hive在实际运行压缩模式中出现的问题》

版权声明:本文为博主原创文章,未经博主允许不得转载。

hadoop 集群运行WordCount示例程序

在博客中http://blog.csdn.net/stormragewang/article/details/41148917写到运行wordcount程序 [hadoop@Yarn-Master ...
  • StormrageWang
  • StormrageWang
  • 2015年12月19日 17:02
  • 2634

Linux下用Eclipse开发调试Hadoop程序后打jar包后,到Hadoop集群上运行

Linux系统(Ubuntu14.10)下Hadoop开发环境搭建 下载Eclipse,解压安装,下载hadoop-eclipse-plugin-2.5.1.jar插件,放至/eclipse/pl...
  • shanyuelanhua
  • shanyuelanhua
  • 2015年05月21日 14:33
  • 1391

Hadoop集群模式下运行Mapreduce任务

写了一个Hadoop权威指南中MapReduce处理天气数据的Demo一.MapReduce执行过程map前 map后 mapreduce流程图二.编写Mapper和Reducer类MaxTemp...
  • Chi_LaughingGor
  • Chi_LaughingGor
  • 2017年04月19日 17:18
  • 659

Hadoop集群上使用Lzo压缩

转载地址:http://www.tech126.com/hadoop-lzo/ 自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩 当时,我对gzip压缩过的文件和原始的log...
  • aaa1117a8w5s6d
  • aaa1117a8w5s6d
  • 2014年09月15日 18:35
  • 1046

[hadoop]成功搭建Hadoop集群后简单实验

1>  检查对HDFS的访问(在namenode上操作)        #./hadoop-0.20.2/bin/hadoop fs -ls 2>  hadoop中的文件系统操作        ...
  • kakane
  • kakane
  • 2013年02月22日 14:04
  • 3330

hadoop 上运行java程序

1、借助eclipse 在eclipse下面搭建Hadoop开发环境的相关问题及其解决详见http://www.linuxidc.com/Linux/2012-02/54597.htm 有一个问题...
  • dragon_fire
  • dragon_fire
  • 2012年11月28日 16:22
  • 638

本地Spark程序提交到hadoop集群运行流程

1.本地环境准备 本文是将eclipse开发环境下的maven+Spark+scala程序移植到集群环境上执行过程,写的很粗糙,见谅。 本地用eclipse编写Spark小程序,完成从txt文件读取数...
  • tf_dev
  • tf_dev
  • 2017年08月15日 17:38
  • 167

Eclipse打包mapreduce程序并提交至hadoop集群运行

在命令行里能够将程序运行在hadoop集群环境后,
  • tangtang5156
  • tangtang5156
  • 2014年11月07日 09:20
  • 2849

hadoop2.7.1 Intellj idea 远程提交job到linux集群

本文章主要说明windows环境下使用idea远程提交job到linux的hadoop集群。 hadoop集群的部署网上有很多,我自己在虚拟机上搭建了伪集群用于个人学习使用。 下面以wordcount...
  • qq377751971
  • qq377751971
  • 2017年04月11日 13:40
  • 613

hadoop 查看集群的网页监控状态

一、查看集群的网页监控状态 1.查看hdfs集群状态,也就是namenode的访问地址 配置:hdfs-site.xml--dfs.namenode.http-address 默认访...
  • a337895179
  • a337895179
  • 2016年12月19日 15:37
  • 3579
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hadoop集群上压缩后运行总结
举报原因:
原因补充:

(最多只允许输入30个字)