大数据面试高频题目 - 深度解析 HBase：探秘分布式 NoSQL 数据库的关键技术

最新推荐文章于 2024-07-12 07:15:00 发布

等风来792

最新推荐文章于 2024-07-12 07:15:00 发布

阅读量1.4k

点赞数 34

文章标签：大数据分布式数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62066048/article/details/136856668

版权

本文将深入探讨 HBase，这是分布式 NoSQL 数据库中的关键技术，被广泛用于大数据存储和实时查询。透过高频面试题解析，我们将深入研究 HBase 在数据存储和检索中的作用。无论你是初学者还是渴望加深对 NoSQL 数据库技术的了解，本文都将为你提供实用的面试准备。

hbase是一种分布式、可扩展，支持海量存储的NoSQL数据库

一、架构角色

1、master

实现类为hmaster，负责监控集群中所有的regionserver实例，功能如下：

（1）管理元数据表格hbase：meta，接受用户对表格创建修改的命令并执行

（2）监控region是否需要负载均衡，故障转移和region的拆分

2、region server

实现类为hregionserver，组合作用如下：

（1）负责数据cell的处理，例如写入数据put，查询数据get等

（2）拆分合并region的实际执行者，由master监控，有regionserver执行

二、hbase的写流程

1、client客户端向zk发生请求创建连接

2、读取zk存储meta表是由哪个region server管理（如103）、

3、访问103读取meta表

4、将读取的meta表作为属性保存在连接中，如果meta发生变化需要重新读取缓存

5、向待写入表发送put写数据请求

6、将请求先写入WAL

在mem story会排序并保存一段时间，并不安全。数据在写入到mem story之后就会返回写入成功的ack，此时宕机可以通过WAL找回

7、操作put请求，写入到对应mem story并排序

8、等待触发刷写条件写入对应的store

三、hbase的读流程

1、client客户端向zk发生请求创建连接

2、读取zk存储元数据表是由哪个region server管理（如103）

3、访问103读取meta表

4、将meta表作为属性保存在连接中，如果meta表发生变化需要重新读取缓存

5、memstore：正常读，storefile：根据索引确定待读取文件，再根据blockcache读取文件

6、合并多个位置读取到的数据，给用户返回最大版本的数据，如果最大版本数据为删除标记，则不返回任何数据

四、hbase的刷写策略

1、mem store：flush.size 128M，当mem store的大小达到128M，其所在region的所有memstore都会刷写

2、region：128M*4，当mem store的大小达到了128*4M时，会阻止继续会该memstore写

3、regionserver：JVM堆内存*memstore.size*memstore.size.low.limit（JVM堆内存*0.4*0.95），当regionserver中memstore的总大小达到上述值，region会按其所有memstore的大小顺序依次进行刷写，直到总大小减小到上述值以下；当总大小达到JVM内存*0.4时，会阻止继续往所有的memstore写数据

4、定期刷写：默认最后修改时间距离1小时

5、手动刷写，手动执行flush

五、region的切分

1、0.94之前：国定按10G切。当1个region中的某个store下所有storefile的总大小超过10G就会进行执行

2、0.97-2.0：动态变化，min（10G，2*128M*R^3），R是一个RS中同一张表region的数量

3、2.0之后：第一次是按照256M切，后面都按照10G切

六、hbase的合并

1、minor compaction：会将临近的若干个小的hfile合并成一个大的hflie，但不会完全清理过期和删除的数据，只执行部分的物理删除操作

2、major compaction：会将一个store下的所有hfile合并成一个大的hfile，并且会清理掉删除和过期的数据

七、rowkey设计原则

1、长度原则：建议越短越好，不要超过16个字节

2、散列原则：如果rowkey是按时间戳的方式递增，不要将时间放在二进制码的前面，建议将rowkey高位作为散列字段，由程序循环生成，低位放时间字段

3、唯一原则，必须在设计上保证其唯一性

通过对rowkey的设计，使数据能够分散到多个region中

八、hbase二级索引原理

1、原理：协处理器，协助处理数据，可以在向原始表中写入数据之后向索引表中写入一条索引数据

2、种类及写法

（1）全局读多写少

单独创建表专门用于存储索引，索引表数据量比原始表小，读取更快速。但是写操作会写两张表的数据，跨region，需要多个连接

（2）本地写多读少

将索引数据和原表放在一起，加在一起比原表数据大，读取相对较慢，但是由于是在同一个region，所以写操作两条数据用的是同一个连接

九、hbase和hive的对比

1、hive

（1）数据仓库：hive的本质其实就相当于将hdfs中已经存储的文件在mysql中做了一个双射关系，以方便使用hql去管理查询

（2）用于数据分析、清洗：hive适用于离线的数据分析和清洗，延迟较高

（3）基于hdfs、mapreduce：hive存储的数据依旧在datanode，编写的hql语句终将是转换成mapreduce代码执行

2、hbase

（1）数据库：是一种面向列族存储的非关系型数据库

（2）用于存储半结构化和非结构化的数据：适用于单表非关系型数据的存储，不适合做关联查询，类似join操作

（3）基于hdfs：数据持久化存储的体现形式是hfile，存放于datanode中，被regionserver以region的形式进行管理

（4）延迟较低，接入在线业务使用：面对大量的企业数据，hbase可以直接单表大量数据的存储，同时提供了高效的数据访问速度

博客等级

码龄4年

9
原创

258
点赞

130
收藏

180
粉丝

关注

私信

热门文章

分类专栏

大数据高频面试题目 3篇

最新评论

数据库面试高频题目 - 深度解析 MySQL：探秘关系型数据库的核心技术（三）
CSDN-Ada助手: 恭喜作者继续坚持创作，这篇关于MySQL的深度解析真是让人收获颇丰！不过，我想提出一个建议，希望作者在未来的创作中可以适当增加一些实际案例或者应用场景的分析，这样读者可以更好地理解和运用所学知识。期待作者的下一篇文章，谦虚地建议，多多努力！
数据库面试高频题目 - 深度解析 MySQL：探秘关系型数据库的核心技术（一）
CSDN-Ada助手: 恭喜作者发布了第7篇博客！标题为“数据库面试高频题目 - 深度解析 MySQL：探秘关系型数据库的核心技术（一）”真是让人期待。希望作者能够继续保持创作的热情和积极性，不断分享更多深度解析数据库相关的内容。建议下一步可以考虑拓展到其他数据库类型或者深入探讨 MySQL 的高级技术，让读者受益更多。期待作者的下一篇精彩文章！
大数据面试高频题目 - 深度解析 HBase：探秘分布式 NoSQL 数据库的关键技术
CSDN-Ada助手: 恭喜作者发布了这篇关于HBase的深度解析文章！通过探秘分布式NoSQL数据库的关键技术，读者们可以更加深入地了解这个领域的知识。希望作者能够继续保持创作的热情和耐心，不断分享自己的见解和经验。或许在下一篇博客中，可以探讨一下HBase在大数据应用中的实际案例，让读者更加直观地感受到这些技术的应用场景和效果。期待您的下一篇作品！
大数据面试高频题目 - 深度解析 Hadoop: 探索集群资源管理的关键技术-Yarn
CSDN-Ada助手: 恭喜您在博客中深度解析了Hadoop中关键技术Yarn，对大数据面试高频题目有很好的探讨。持续创作对于提升自身知识水平和分享给他人有着重要意义。建议您在下一篇博客中可以尝试结合实际案例或者应用场景，更具体地展示Yarn在集群资源管理中的应用，让读者更易理解和实践。期待您更多精彩的文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
大数据面试高频题目 - 深度解析 Kafka：探索实时数据流处理的关键技术
CSDN-Ada助手: 恭喜用户撰写了如此深度解析 Kafka 的博客！对于实时数据流处理技术的探索，确实是当前大数据领域的热门话题之一。希望用户可以继续保持创作的热情和耐心，可以考虑在未来的博客中探讨 Kafka 在不同场景下的应用案例，或者深入研究其与其他数据处理工具的结合使用。期待用户的更多精彩文章！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。