HBase生产环境配置与使用优化不完全指南

最新推荐文章于 2024-06-13 19:30:00 发布

weixin_33676492

最新推荐文章于 2024-06-13 19:30:00 发布

阅读量230

点赞数

文章标签：大数据 python 数据库

原文链接：https://my.oschina.net/u/3611008/blog/2873577

版权

2019独角兽企业重金招聘Python工程师标准>>>

HBase上线至今，承载了线上所有实时交易量，虽然大部分请求都能够保证服务稳定（99.56%响应时间毫秒级），但是一旦HBase出现问题就是鸡飞狗跳的灾难。
从老机器到新集群，从老机房到新机房，期间经历过各种问题和生产故障，总结一番以备不时之需。

HBase使用定位：大规模数据+高并发+毫秒级响应的OLTP实时系统（数据库）。

集群部署架构

HBase集群一旦部署使用，再想对其作出调整需要付出惨痛代价，所以如何部署HBase集群是使用的第一个关键步骤。

以下是HBase集群使用以来的部署架构变化以及对应的分析。

第一阶段硬件混合型+软件混合型集群

集群规模：20
部署服务：HBase、Spark、Hive、Impala、Kafka、Zookeeper、Flume、HDFS、Yarn等
硬件情况：内存、CPU、磁盘等参差不齐，有高配有低配，混搭结构

硬件混合型指的是该集群机器配置参差不齐，混搭结构。
软件混合型指的是该集群部署了一套CDH全家桶套餐。

这个集群不管是规模、还是服务部署方式相信都是很多都有公司的”标准“配置。

那么这样的集群有什么问题呢？

如果仅仅HBase是一个非“线上”的系统，或者充当一个历史冷数据存储的大数据库，这样的集群其实一点问题也没有，因为对其没有任何苛刻的性能要求。

但是如果希望HBase作为一个线上能够承载海量并发、实时响应的系统，这个集群随着使用时间的增加很快就会崩溃。

先从硬件混合型来说，一直以来Hadoop都是以宣称能够用低廉、老旧的机器撑起一片天。是的没错，这确实是Hadoop的一个大优势。然而前提是作为离线系统使用。首先说明一下离线系统的定义，就是跑批的系统，Spark、Hive、MapReduce等等，这些都算，没有很强的时间要求，显著的吞吐量大，延迟高。因为没有实时性要求，几台拖拉机跑着也没有问题，只要最后能出结果并且结果正确就ok。

转载于:https://my.oschina.net/u/3611008/blog/2873577

weixin_33676492

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。