Hbase面试题（一）

最新推荐文章于 2024-05-04 16:01:05 发布

罗少说

最新推荐文章于 2024-05-04 16:01:05 发布

阅读量446

点赞数 1

分类专栏： hbase 文章标签： hbase hadoop 大数据

本文链接：https://blog.csdn.net/luo981695830/article/details/131391394

版权

hbase 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.1 hbase写流程

客户端向 HBase 的 ZooKeeper 发送请求，获取写入目标表的 region 信息。ZooKeeper 返回表的 region 地址。
客户端通过 HBase 客户端 API 创建一个 Put 对象，并设置需要写入的数据。
客户端使用 region 地址向对应的 region server 发送写入请求。region server 进行数据的预处理（如检查数据合法性、解码等），并将数据写入 MemStore。
当 MemStore 中的数据大小达到一定阈值或超过一定时间限制时，HBase 会启动 flush 操作，将 MemStore 中的数据刷到硬盘上的 HFile 中。
如果当前 region 中的某个 HFile 达到一定的大小，HBase 会触发 compaction 操作，将多个小的 HFile 合并成一个大的 HFile，并清理一些旧数据。
当客户端关闭连接时，或者 region server 处理完毕请求后，会向客户端返回写入结果。

1.2 hbase读流程

客户端向 HBase 的 ZooKeeper 发送请求，获取读取目标表的 region 信息。ZooKeeper 返回表的 region 地址。
客户端向对应的 region server 发送读取请求，并提供所需的 row key 和列族、列修饰符等信息。
region server 将请求转发给保存有需要读取的 row key 的 HFile 所在的 Storefile。Storefile 是一个有序的、不可变的数据文件，记录了所有 key 的值及其对应的版本信息。
Storefile 按照 key 在文件内的顺序进行顺序扫描，并匹配读取请求中的 key。当匹配到 key 时，Storefile 根据需要读取的列族、列修饰符等信息返回对应的版本数据。
如果读取请求需要读取多个 HFile，或者读取同一个 HFile 中的多个 Storefile，会将几个 Storefile 的数据进行合并，返回最终的结果集。
当客户端关闭连接时，或者 region server 处理完毕请求后，会向客户端返回读取结果。

1.3 hbase优化

数据模型设计：在设计 HBase 数据表时，应避免过多的列族和行键设计，一般情况下保证每个表只有一个列族即可；同时还需要根据实际业务需求，合理选择 row key、列族、列修饰符等数据结构。
预分区：预分区可以将数据分发到不同的 region 中，避免 region 数据不平衡导致的性能问题；此外还可以使用 Salting 等技术对 row key 进行散列，提高数据的访问效率。
数据块缓存：在 HBase 中，数据的访问通常先通过 block cache 进行查询，如果数据已经被缓存，则可以直接返回结果；否则需要从磁盘上读取数据。因此，合理调整 block cache 大小并进行适当的监控是提高 HBase 性能的重要手段。
合理设置 HDFS 参数：HBase 是基于 HDFS 存储数据的，因此需要针对 HDFS 进行优化。例如，通过修改 HDFS 的块大小、副本数、缓存区大小等参数，可以提高数据存储和访问的效率；同时还可以通过使用 SSD 替换磁盘等技术进一步提高 HDFS 性能。
日志管理：HBase 的性能与日志管理密切相关。因此，需要正确配置 HBase 日志和监控系统，避免过度记录无用的日志信息，同时还要定期清理、归档和压缩日志文件，以避免占用磁盘空间和影响系统性能。
硬件优化：HBase 的性能还受到硬件配置的影响。例如，使用高速缓存、多核处理器、大容量内存等硬件设备可以提高系统的访问速度和吞吐量。

1.4 hbase的region是多大，为什么这么设计，region过大是影响读还是写

HBase 中的 Region 默认大小为 256M，但这个值可以通过修改 HBase 的配置文件进行调整。

通常情况下，为了提高 HBase 的读写性能，Region 的大小应该适中，过大或过小都会影响 HBase 的性能。Region 过大容易导致以下问题：

写入压力：当一个 Region 过大时，每次写入操作都需要操作这个 Region，这样会导致一个 Region 被频繁地写入数据，并且在写入时需要对整个 Region 进行锁定，从而降低写入性能。
数据分布不均衡：当 Region 过大时，对于数据的分布和查询都会造成负面的影响。因为 Region 的分布是基于 rowkey 进行划分的，如果某些 rowkey 区域的数据特别密集，则可能会导致某些 Region 的数据特别多，同时其它的 Region 却只有很少的数据。
恢复时间长：当出现 Region 级别的故障时，如果 Region 太大，那么数据恢复的时间势必过长，从而影响系统的可用性和数据的完整性。

因此，为了避免上述问题，一般建议将 Region 的大小控制在 64M 到 256M 左右。Region 大小的设置不是绝对的，需要根据实际情况进行调整。特别是要结合 HBase 集群的硬件配置、压力状况和数据访问需求等多方面因素来确定。

1.5 Hbase的rowkey设计

根据业务需求选择合适的 rowkey 类型：HBase 中 rowkey 可以是字符串、数字、时间戳等类型，应根据实际业务需求选择合适的 rowkey 类型。例如，如果数据访问较为频繁且需要快速定位，可以使用数字类型的 rowkey；如果需要根据时间段查询数据，则可以使用时间戳作为 rowkey。
避免使用随机字符串和过长的 rowkey：随机字符串作为 rowkey 不利于数据访问和管理，容易导致 region 分布不均衡、存储空间浪费等问题。因此，应尽量避免使用随机字符串作为 rowkey，并恰当限制 rowkey 的长度。
利用 rowkey 进行数据预分区：在建表时，可以通过合理设置 rowkey 范围和数量，将数据预分配到不同的 region 中，避免 region 数据倾斜和读写瓶颈等问题。
考虑 rowkey 的查询性能：在进行数据查询时，通常会依据 rowkey 范围和前缀进行检索。因此，在 rowkey 设计时，可以根据查询需求，尽量使 rowkey 具有一定的顺序性，这样可以加快数据的扫描和检索速度。
综合考虑数据分布和数据访问需求：在设计 rowkey 时，需要综合考虑数据分布和数据访问需求。例如，如果数据量较大且访问频繁，可以将 rowkey 进行散列操作，将数据打散分布到多个 region 中，提高数据访问效率；如果数据量较小且读写频率较低，则可以使用简单的 rowkey，减少存储空间和管理成本。

1.6 hbase预分区

预分区是一种优化手段，可以在创建表时将初始的行键范围分配到表中的 Region 中，从而避免以后需要进行 Region 拆分的操作。通过预先分配一定数量的预分区，HBase 可以更加灵活地管理表的数据分布，提高数据访问的效率。

1.7 hbase和hive的区别

数据存储方式：HBase 是一种 NoSQL 数据库，采用了基于列族的存储模型，适用于实时性较高且结构相对简单的数据存储，具有高可伸缩性和高可用性。而 Hive 则是一种基于 Hadoop 的数据仓库工具，采用了基于行的存储模型，适用于处理结构化数据，数据量较大，但实时性不高的场景。
数据访问方式：HBase 支持随机读写，它的 API 提供了 get、put、scan 等方法，可以快速地访问单个 rowkey 或按照指定条件进行批量操作。Hive 则是通过 SQL 查询来访问数据，它支持复杂的查询语句，并能够将查询结果转换为 MapReduce 作业进行处理。
数据处理方式：HBase 支持使用 MapReduce 作业或者自己的 Coprocessor 处理数据，在处理大量数据时具有良好的扩展性和灵活性。而 Hive 则是使用 HiveQL 语言来进行数据处理，可以将 HiveQL 语句转换为 MapReduce 作业或者 Spark 作业执行。
数据模型：HBase 数据模型是基于列族的，类似于关系数据库中的表结构，但允许每个单元格有多个版本。Hive 则是基于表的结构，每个表通常由多个列组成。