每天百亿数据存入HBase，如何保证数据的存储正确和在规定时间里全部录入完毕，不残留数据？

最新推荐文章于 2024-06-30 21:03:25 发布

zjlala96

最新推荐文章于 2024-06-30 21:03:25 发布

阅读量309

点赞数

分类专栏：大厂面试题面试题百日百刷 HBase 文章标签： hbase java 数据库

原文链接：https://www.demosoftware.cn

版权

面试题百日百刷同时被 3 个专栏收录

84 篇文章 2 订阅

订阅专栏

大厂面试题

58 篇文章 0 订阅

订阅专栏

HBase

8 篇文章 0 订阅

订阅专栏

文章详细介绍了HBase中cell的定义，包括由rowkey、column和version确定的存储单元特性。接着阐述了HBase从start-hbase.sh开始的启动流程，涉及多个配置脚本和进程。讨论了compact的用途，包括minor和majorcompaction的区别。最后，针对每天百亿数据存入HBase的情况，提出了保证数据正确存储和及时录入的策略，推荐使用BulkLoad进行批量导入。

摘要由CSDN通过智能技术生成

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题：

1.请详细描述HBase中一个cell的结构？

HBase中通过row和columns确定的为一个存贮单元称为cell。

Cell：由{row key, column(=<family> + <label>), version}唯一确定的单元。cell 中的数据是没有类型的，全部是字节码形式存贮。

2.以start-hbase.sh为起点，HBase启动的流程是什么？

start-hbase.sh 的流程如下：

1. 运行 hbase-config.sh

hbase-config.sh的作用：

① 装载相关配置，如HBASE_HOME目录，conf目录，regionserver机器列表，JAVA_HOME 目录等，它会调用$HBASE_HOME/conf/hbase-env.sh ；

② 解析参数（0.96 版本及以后才可以带唯一参数 autorestart，作用就是重启）；

③ 调用 hbase-daemon.sh 来启动 master；

④ 调用 hbase-daemons.sh 来启动 regionserver zookeeper master-backup。

2. hbase-env.sh 的作用：

主要是配置 JVM 及其 GC 参数，还可以配置 log 目录及参数，配置是否需要 hbase 管理 ZK，配置进程 id目录等。

3. hbase-daemons.sh 的作用：

根据需要启动的进程，如 zookeeper，则调用 zookeepers.sh如 regionserver，则调用 regionservers.sh，如 master-backup，则调用 master-backup.sh。

4. zookeepers.sh 的作用：

如果 hbase-env.sh 中的 HBASE_MANAGES_ZK"="true"，那么通过ZKServerTool这个类解析xml配置文件，获取 ZK 节点列表，然后通过 SSH 向这些节点发送远程命令执行。

5. regionservers.sh 的作用：

与 zookeepers.sh 类似，通过配置文件，获取 regionserver 机器列表，然后 SSH 向这些机器发送远程命令。

6.master-backup.sh 的作用：

通过 backup-masters 这个配置文件，获取 backup-masters 机器列表，然后 SSH 向这些机器发送远程命令。

3.简述HBase中compact用途是什么，什么时候触发，分为哪两种，有什么区别，有哪些相关配置参数？

在hbase中每当有memstore数据flush到磁盘之后，就形成一个storefile，当storeFile的数量达到一定程度后，就需要将 storefile 文件来进行 compaction 操作。

Compact 的作用：

① 合并文件

② 清除过期，多余版本的数据