Hbase整理篇

证券投资分析师-高世亮

已于 2022-02-10 19:30:20 修改

阅读量138

点赞数

分类专栏：大数据文章标签： hbase big data hadoop

于 2022-02-10 11:08:22 首次发布

本文链接：https://blog.csdn.net/qq_39432354/article/details/122856688

版权

大数据专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Hbase有什么特点？
•上层构建分布式内存，可以实现高并发、随机实时的读写
•底层基于HDFS，可以实现大数据
•按列存储，基于列实现数据存储，灵活性更高

Hbase设计思想是什么？
•设计思想、冷热数据分离，Hbase将新数据直接写入内存中，如果内存中存储的数据过多，就将内存的数据写入HDFS
–热数据是指刚产生的数据，先写内存，大概率的情况下，可以直接从内存中读取
–冷数据是指先产生的数据，将内存中产生很久的数据写入HDFS中，被读取的概率较小

请简述Hbase的分布式主从架构
•主节点：HMaster：管理节点、负责管理集群的从节点、元数据以及所有Region的分配
•从节点：HRegionServer：存储节点，负责实现所有数据的存储，管理Region，构建分布式内存

请简述Table表与RegionServer的关系
•Table是Hbase中的表对象，一张表可以划分为多个Region分区
•RegionServer是Hbase中实现数据存储的节点，负责存储每个Region

表的Region的划分规则及数据写入分区的规则是什么？
•Region划分规则：范围划分，一张表可以在Rowkey行的方向上划分多个Region，每个Region构成一段连续的区间
•数据划分规则：根据Rowkey属于哪个Region的范围，就将这条数据写入哪个Region分区中

Region的内部存储结构是什么？
•每个RegionServer中管理多个Region
•每个Region中根据列族划分多个Store
•每个Store中有1个memstore和多个StoreFile文件
•数据写入memstore中，如果达到内存阈值，memstore中的数据将写入StoreFile

什么是热点问题？
•现象：在某个时间段内，大量的读写请求全部集中在某个Region中，导致这台RegionServer的负载比较高，其他的Region和RegionServer比较空闲
•问题：这台RegionServer故障的概率就会增加，整体性能降低，效率比较差
•原因：本质上的原因，数据分配不均衡
•情况
–一张表只有一个Region
–一张表有多个Region，但是Rowkey是连续产生的

怎么解决热点问题？
•合理的设计Rowkey，构建不连续的Rowkey
•根据Rowkey的前缀，为表划分多个Region

什么是Compaction？
•Compaction的功能是将多个单独有序StoreFile文件进行合并，合并为整体有序的大文件并且删除过期数据，加快读取速度

协处理器是什么？Hbase中提供了几种协处理器？
•协处理器指的是Hbase提供了一些开发接口，可以自定义开发一些功能集成到Hbase中
•类似于Hive中的UDF，当没有这个功能时，可以使用协处理器来自定义开发，让Hbase支持对应的功能
•协处理器分为两类
–Observer：观察者类，类似于监听器的实现
–Endpoint：终端者类，类似于存储过程的实现

Hbase常见优化有哪些？
•内存优化：针对于不同的读写场景，合理的调整Memstore和BlockCache的比例大小
•压缩优化：对列族配置压缩存储，减少IO消耗
•布隆过滤：基于数据文件构建布隆索引，加快数据查询
•提高客户端缓存空间、指定每次扫描的行数、设置合适的GC算法等
•其他优化
–Linux句柄数优化，提高Linux线程、文件通道等资源句柄数
–HDFS句柄数优化：提高文件打开线程数、提高连接超时时间
–Zookeeper优化：优化连接超时时间