hbase的一些常见的题目

一、HBase是什么?有什么特点?
列式存储的数据库
特点:

使用HDFS存储,并利用其可靠性
访问速度快
支持随机读写
高扩展
高并发
二、HBase的架构中包含了哪些组件?每个组件有什么作用?
Cilent:可以由javaApi HbaseShell充当,向Zookeeper发送请求;维护缓存(数据和HRegion的地址信息),加快访问速度
Zookeeper:负责HMaster的选举,保证集群里只有一个HMaster;存储HBase元数据信息;监听HRS
HRegionServer:具体执行读写操作的;负责HRegion的拆分;负责StoreFile的合并;处理客户端的请求;维护HLog日志信息;和HDFS交互,存储数据
HMaster:更新元数据的操作;HRegion分裂后,负责HRegion新地址的分配;HRegionServer挂掉后,负责故障转移;空闲时负载均衡;StoreFile的合并
三、HBase的读写流程?
访问Zookeeper上的元数据信息,找到任务文件对应的名称空间、表、rowkey对应的HRegion的位置信息;
找到后连接HRegion,开始读/写任务;
读的过程:先从MemStore开始读,如果没找到,再从缓存里读,如果还没找到,就从StoreFile里读;如果是从StoreFile里读的,会先把数据缓存在客户端然后读取。
写的过程:先写入HLog里做持久化,再写到MemStore里;然后在Flush的时候,把MemStore里的数据刷到硬盘里,同时删除HLog上的数据
四、HBase的rowkey如何设计?
哈希:对时间戳进行哈希
加盐:防止并发的太快导致随机数重复
反转:降低重复的概率
设计原则:长度不能太长或太短;不能重复;在各个Region上均匀分布,不能太集中;考虑到字典序

五、HBase和Hive的区别有哪些?
HBase

是什么:列式的非关系型数据库;
延时性:低延时(有memStrore),高速读写;
存储形式:包装过的,重新构建了一套存储体系;
作用:存数据的;
语言:非结构性语言(命令行)

Hive

是什么:数据仓库;
延时性:高延时;
存储形式:元数据和文件都存储在HDFS上;
作用:分析和做数据清洗用的,不存数据;
语言:使用的是类sql语句

六、Region的拆分有哪些策略?
1、自动拆分:
在这里插入图片描述

2、预拆分

HBase默认建表时有一个region,并且rowkey是没有边界的,没有startkey和endkey,所有数据都会默认写入这个Region,随着数据增加,此Region会进行split分裂为两个Region。在此过程中,会产生两个问题:

数据往一个region上写,会产生写的热点问题;
region split分裂会消耗集群大量的IO资源;
因此可以采用预分区的策略,创建空Region,确定每个Region的起始和终止rowkey,这样的rowkey设计可以均匀的存在于各个Region里,就不会存在写的热点问题,而且split分裂的概率大大降低
创建预分区可以通过shell实现
3、强制拆分
找到指定的rowkey,调用 hbase shell 的 split 方法split ‘tableName’, ‘splitKey’ 、split ‘regionName’, ‘splitKey’

七、说一说对Sqoop的认识?
数据迁移工具,可以在mysql等数据库和HBase、HDFS、Hive之间互相传输数据
底层的实现原理:MapReduce
应用场景:数仓建设
八、HBase的数据存储结构是什么?
数据存放方式:命名空间——表——列簇——列——值——rowkey
物理存储结构:集群——HRS——HR——Store——StoreFile

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值