需要关注的一些最佳实践经验。
**Schema设计七大原则 **
1)每个region的大小应该控制在10G到50G之间;
2)一个表最好保持在 50到100个 region的规模;
3)每个cell最大不应该超过10MB,如果超过,应该有些考虑业务拆分,如果实在无法拆分,那就只能使用mob;
4)跟传统的关系型数据库不同,一个HBase的表中列族最多不超过3个,列族中的列可以动态添加的,不要设计过多列族;
5)列族名必须尽量短,因为我们知道在存储的时候,每个keyvalue都会包含列族名;
6)如果一个表存在一个以上的列族,那么必须要注意,不同列族之间行数相差不要太大。例如列族A有10万行,而列族B有1亿行,那么rowkey就有1亿行,而region是按照行键进行切分的,因此列族A可能会被打散为很多很多小region,这会导致在扫描列族A时会引发较多IO,效率低下。
7)列族可以设置TTL时间,HBase在超过设定时间后,会自动删除数据。
设置方法有两种:
# 建表时设置,TTL单位为秒,此例中列簇’f1’的数据保留1天(86400秒)
hbase(main):002:0>