hbase快速入门之---表设计（使用建议）

最新推荐文章于 2023-05-24 23:30:00 发布

Java_Soldier

最新推荐文章于 2023-05-24 23:30:00 发布

阅读量8.7k

点赞数

分类专栏： hbase

本文链接：https://blog.csdn.net/Java_Soldier/article/details/78786202

版权

hbase 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

 
 ØColumn Family 

 
 建议不要在一张表里定义多个的 
 column family 
 。目前 
 Hbase 
 并不能很好的处理超过 
 2~3 
 个 
 column family 
 的表。因为某个 
 column family 
 在 
 flush 
 的时候，它邻近的 
 column family 
 也会因关联效应被触发 
 flush 
 ，最终导致系统产生更多的 
 I/O 
 。 

 
 Ø 
 使用压缩 

 
 由于 
 HBase 
 的 
 KeyValue 
 的存储特性，使用压缩减少对硬盘和网络的压力，从而提高集群的整体吞吐量。推荐使用 
 snappy 
 压缩。 

 
 Ø 
 开启 
 Bloom filter 

 
 开启 
 Bloom filter  
 ， 
 HBase 
 可以利用 
 Bloomfilter 
 来提高查询性能，但是会增加存储的开销。 

 
 ØRowkey 
 设计 

 
 数字 
 rowkey 
 的从大到小排序： 
 hbase 
 只支持从小到大的排序，这样就对于排行榜一类的查询需求很尴尬。那么采用 
 rowkey = Integer.MAX_VALUE-rowkey 
 的方式将 
 rowkey 
 进行转换，最大的变最小，最小的变最大。在应用层再转回来即可完成排序需求。 

 
 对于多字段查询的情况，可以把考虑多个查询条件拼在 
 rowkey 
 中。这样既能满足多条件查询，又能有很快的查询速度。 

 
 如果 
 rowkey 
 是类似时间戳的方式递增的生成，建议不要使用正序直接写入 
 rowkey 
 ，这样容易产生所有新数据都在一个 
 regionserver 
 上堆积的现象，影响性能。可以考虑采用 
 reverse 
 的方式反转 
 rowkey 
 ，使得 
 rowkey 
 大致均衡分布，这样设计有个好处是能将 
 regionserver 
 的负载均衡。 

 
 以下我给了一些使用 HBase 时候对表格设计的一些建议，读者也可以理解背后的含义。不过我并不希望这些建议成为使用 HBase 的教条，毕竟也有不尽合理的地方。首先，一个 HBase 数据库是否高效，很大程度会和 Row-Key 的设计有关。因此，如何设计 Row-key 是使用 HBase 时，一个非常重要的话题。随着数据访问方式的不同，Row-Key 的设计也会有所不同。不过概括起来的宗旨只有一个，那就是尽可能选择一个 Row-Key，可以使你的数据均匀的分布在集群中。这也很容易理解，因为 HBase 是一个分布式环境，Client 会访问不同 Region Server 获取数据。如果数据排布均匀在不同的多个节点，那么在批量的 Client 便可以从不同的 Region Server 上获取数据，而不是瓶颈在某一个节点，性能自然会有所提升。对于具体的建议我们一般有几条：