Hbase整理篇

Hbase有什么特点?
•上层构建分布式内存,可以实现高并发、随机实时的读写
•底层基于HDFS,可以实现大数据
•按列存储,基于列实现数据存储,灵活性更高

Hbase设计思想是什么?
•设计思想、冷热数据分离,Hbase将新数据直接写入内存中,如果内存中存储的数据过多,就将内存的数据写入HDFS
–热数据是指刚产生的数据,先写内存,大概率的情况下,可以直接从内存中读取
–冷数据是指先产生的数据,将内存中产生很久的数据写入HDFS中,被读取的概率较小

请简述Hbase的分布式主从架构
•主节点:HMaster:管理节点、负责管理集群的从节点、元数据以及所有Region的分配
•从节点:HRegionServer:存储节点,负责实现所有数据的存储,管理Region,构建分布式内存

请简述Table表与RegionServer的关系
•Table是Hbase中的表对象,一张表可以划分为多个Region分区
•RegionServer是Hbase中实现数据存储的节点,负责存储每个Region

表的Region的划分规则及数据写入分区的规则是什么?
•Region划分规则:范围划分,一张表可以在Rowkey行的方向上划分多个Region,每个Region构成一段连续的区间
•数据划分规则:根据Rowkey属于哪个Region的范围,就将这条数据写入哪个Region分区中

Region的内部存储结构是什么?
•每个RegionServer中管理多个Region
•每个Region中根据列族划分多个Store
•每个Store中有1个memstore和多个StoreFile文件
•数据写入memstore中,如果达到内存阈值,memstore中的数据将写入StoreFile

什么是热点问题?
•现象:在某个时间段内,大量的读写请求全部集中在某个Region中,导致这台RegionServer的负载比较高,其他的Region和RegionServer比较空闲
•问题:这台RegionServer故障的概率就会增加,整体性能降低,效率比较差
•原因:本质上的原因,数据分配不均衡
•情况
–一张表只有一个Region
–一张表有多个Region,但是Rowkey是连续产生的

怎么解决热点问题?
•合理的设计Rowkey,构建不连续的Rowkey
•根据Rowkey的前缀,为表划分多个Region

什么是Compaction?
•Compaction的功能是将多个单独有序StoreFile文件进行合并,合并为整体有序的大文件并且删除过期数据,加快读取速度

协处理器是什么?Hbase中提供了几种协处理器?
•协处理器指的是Hbase提供了一些开发接口,可以自定义开发一些功能集成到Hbase中
•类似于Hive中的UDF,当没有这个功能时,可以使用协处理器来自定义开发,让Hbase支持对应的功能
•协处理器分为两类
–Observer:观察者类,类似于监听器的实现
–Endpoint:终端者类,类似于存储过程的实现

Hbase常见优化有哪些?
•内存优化:针对于不同的读写场景,合理的调整Memstore和BlockCache的比例大小
•压缩优化:对列族配置压缩存储,减少IO消耗
•布隆过滤:基于数据文件构建布隆索引,加快数据查询
•提高客户端缓存空间、指定每次扫描的行数、设置合适的GC算法等
•其他优化
–Linux句柄数优化,提高Linux线程、文件通道等资源句柄数
–HDFS句柄数优化:提高文件打开线程数、提高连接超时时间
–Zookeeper优化:优化连接超时时间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值