Hbase有什么特点?
•上层构建分布式内存,可以实现高并发、随机实时的读写
•底层基于HDFS,可以实现大数据
•按列存储,基于列实现数据存储,灵活性更高
Hbase设计思想是什么?
•设计思想、冷热数据分离,Hbase将新数据直接写入内存中,如果内存中存储的数据过多,就将内存的数据写入HDFS
–热数据是指刚产生的数据,先写内存,大概率的情况下,可以直接从内存中读取
–冷数据是指先产生的数据,将内存中产生很久的数据写入HDFS中,被读取的概率较小
请简述Hbase的分布式主从架构
•主节点:HMaster:管理节点、负责管理集群的从节点、元数据以及所有Region的分配
•从节点:HRegionServer:存储节点,负责实现所有数据的存储,管理Region,构建分布式内存
请简述Table表与RegionServer的关系
•Table是Hbase中的表对象,一张表可以划分为多个Region分区
•RegionServer是Hbase中实现数据存储的节点,负责存储每个Region
表的Region的划分规则及数据写入分区的规则是什么?
•Region划分规则:范围划分,一张表可以在Rowkey行的方向上划分多个Region,每个Region构成一段连续的区间
•数据划分规则:根据Rowkey属于哪个Region的范围,就将这条数据写入哪个Region分区中
Region的内部存储结构是什么?
•每个RegionServer中管理多个Region
•每个Region中根据列族划分多个Store
•每个Store中有1个memstore和多个StoreFile文件
•数据写入memstore中,如果达到内存阈值,memstore中的数据将写入StoreFile
什么是热点问题?
•现象:在某个时间段内,大量的读写请求全部集中在某个Region中,导致这台RegionServer的负载比较高,其他的Region和RegionServer比较空闲
•问题:这台RegionServer故障的概率就会增加,整体性能降低,效率比较差
•原因:本质上的原因,数据分配不均衡
•情况
–一张表只有一个Region
–一张表有多个Region,但是Rowkey是连续产生的
怎么解决热点问题?
•合理的设计Rowkey,构建不连续的Rowkey
•根据Rowkey的前缀,为表划分多个Region
什么是Compaction?
•Compaction的功能是将多个单独有序StoreFile文件进行合并,合并为整体有序的大文件并且删除过期数据,加快读取速度
协处理器是什么?Hbase中提供了几种协处理器?
•协处理器指的是Hbase提供了一些开发接口,可以自定义开发一些功能集成到Hbase中
•类似于Hive中的UDF,当没有这个功能时,可以使用协处理器来自定义开发,让Hbase支持对应的功能
•协处理器分为两类
–Observer:观察者类,类似于监听器的实现
–Endpoint:终端者类,类似于存储过程的实现
Hbase常见优化有哪些?
•内存优化:针对于不同的读写场景,合理的调整Memstore和BlockCache的比例大小
•压缩优化:对列族配置压缩存储,减少IO消耗
•布隆过滤:基于数据文件构建布隆索引,加快数据查询
•提高客户端缓存空间、指定每次扫描的行数、设置合适的GC算法等
•其他优化
–Linux句柄数优化,提高Linux线程、文件通道等资源句柄数
–HDFS句柄数优化:提高文件打开线程数、提高连接超时时间
–Zookeeper优化:优化连接超时时间