hadoop集群上压缩后运行总结

原创 2013年12月04日 10:28:48

我们数据组通过三周的努力,整个集群都变成了可压缩各种模式。

具体操作:

hbase的数据迁移,hive的数据迁移

首先说说hbase的数据迁移,数据采用了Gz的压缩模式并且rowkey进行了调整后,整个hbase集群region的分布更加合理,主要是从以下几个方面:

1、磁盘空间利用率提高了,现在压缩后,占用300多个GB的空间

2、region大小更加均衡(不会出现之前的有些region大小几个GB,有些region大小是几百MB)

3、region的request请求数更加均衡(不会出现之前的有些region请求数在几百个,有些region的请求数在几万个

4、客户端写数据时,不会出现1-2分钟的暂停时间(之前就是因为这个暂停时间,导致写数据的吞吐量上不来)

5、每个regionserver节点的socket连接数也更加均衡

6、数据流转提升很高,现在很多数据在整体半个小时之内就可以转到hive库中

7、hbase集群运行很稳定不会出现波动(这里我是指compaction操作的频繁度)

8、在hbase集群进行只有读写操作时,各节点CPU使用率不超过20%(注:依据具体的硬件环境来测试的)

9、hbase节点日志量很小,如下图:

没压缩前,都是几百MB甚至上GB;而压缩后,日志量一天还不到2MB。

以上就是这次hbase的压缩后的体会

 

目前hive迁移正在进行中,目前有以下几个方面:

1、数据源压缩,测试下来发现Gz比bz的效果好(因为bz占用CPU较高)

2、采用了rcfile,结合gz、snappy、lzo的各种压缩模式,提升了计算效率

目前还需要继续观察其稳定性,后续将对此进行完善。

 详细参考另一篇问题描述的blog。

后面说下在hbase和hive使用压缩后,带来的问题:

1、就是CPU消耗很大,最初的一两天regionserver经常自动退出(目前我们hbase与hive是共享HDFS的,最终检查下来是当前资源已经达到了最大,需要进行调整)

2、参考另一篇blog《hive在实际运行压缩模式中出现的问题》

版权声明:本文为博主原创文章,未经博主允许不得转载。 举报

相关文章推荐

Hadoop集群中添加Snappy解压缩库

Snappy是用C++开发的压缩和解压缩开发包,旨在提供高速压缩速度和合理的压缩率。Snappy比zlib更快,但文件相对要大20%到100%。在64位模式的Core i7处理器上,可达每秒250~5...

开启hadoop和Hbase集群的lzo压缩功能

安装前: # yum -y install  lzo-devel zlib-devel  gcc autoconf automakelibtool   1.(all) 在集群的所有节点上安装Lz...

精选:深入理解 Docker 内部原理及网络配置

网络绝对是任何系统的核心,对于容器而言也是如此。Docker 作为目前最火的轻量级容器技术,有很多令人称道的功能,如 Docker 的镜像管理。然而,Docker的网络一直以来都比较薄弱,所以我们有必要深入了解Docker的网络知识,以满足更高的网络需求。

hadoop 我的总结

1:hadoop 不过是一种框架,一种编程模型!!通过实现他所给定的编程接口(mapperhe)

7、压缩与解压缩

在hadoop中有两个地方需要用到压缩:其一是在HDFS上存储数据,节省存储空间;其二是集群间的通讯需要数据压缩,提高带宽的利用率。在java中一切输入输出都是以流的方式进行。一个可以读取字节序列的对...

hadoop2.6.0压缩方式lzo部署安装

Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。LZO(LZO是Lempel...

hadoop压缩汇总

一 压缩目的 可以减少对集群磁盘空间的占用,减小并行计算数据传输时网络IO 二 压缩种类 SnappyCodec,GzipCodec,BZip2Codec,Lz4Codec,LzoCodec...

windows上运行rabbitmq集群

概述在windows 10上实现运行rabbitmq cluster,含三个节点,并能同时启用rabbitmq_management插件,实现web管理。rabbitmq版本为:rabbitmq-se...

spark在集群上运行

1.spark在集群上运行应用的详细过程 (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)...

hadoop 2.3 集群总结

用了近两个礼拜的摸索终于搭建好了hadoop集群,测试性能也符合预期。 centos6.4下hadoop2.3集群总结如下: 关于环境的设置:              1.关闭selinux ...

hadoop配置、运行错误总结

转载自:三江小渡  http://blog.pureisle.net/archives/1687.html 新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)