HBase写入性能太低

实时即未来

已于 2023-04-18 17:23:38 修改

阅读量906

点赞数

文章标签： hbase 大数据 hadoop

于 2023-04-18 17:01:56 首次发布

本文链接：https://blog.csdn.net/m0_57320261/article/details/130226110

版权

Flink数据写HBase消费出2亿数据,同样的逻辑写hdfs能消费出10亿数据,集群资源够用,请问是什么原因造成的

可能的原因有很多，以下列举一些常见的问题和解决方案：

HBase 的写入性能不够高。HBase 是基于 LSM tree 数据结构实现的，在写入时需要进行数据排序、合并等操作，相比 HDFS 的追加写入来说，延迟会更高。可以通过优化 HBase 的配置或者选择其他的 NoSQL 数据库来提升性能，同时也可以考虑在 Flink 中增加缓存等方式，提高写入效率。
HBase 表的设计不合理。HBase 的数据模型不同于关系型数据库，需要根据具体的场景来设计表结构。如果表结构不合理，可能会导致写入性能低下，查询效率低下等问题。建议对表结构进行优化，以提高写入和查询效率。
Flink 写入 HBase 的并发度不够高。Flink 在写入 HBase 时，默认只有一个并发度，如果数据量较大，可能会导致写入过慢。可以通过增加并发度的方式来提高写入效率。
HDFS 的并行写入能力更强。HDFS 是分布式文件系统，可以实现多个节点并行写入数据。而 HBase 是分布式数据库，每个 RegionServer 只负责一部分数据，写入时可能存在热点问题，导致性能较差。建议考虑增加 HBase RegionServer 的数量，来提高写入性能。

Flink处理实时数据,通过javaAPI写入HBase,通过增加的方式提高写入速率

由于缓存的数据是存储在内存中的，相比于从磁盘读取数据，从内存中读取数据会更快，这也可以进一步提高写入 HBase 的速率。因此，使用 Broadcast State 进行缓存可以有效地加快写入 HBase 的速率。

关注