1. 数据rowkey散列方便入库速度提升
2. 一般内存至少配置32G、8核CPU、硬盘不做Raid,系统盘和存储盘分开
3. 10台节点入库一个列族的表request数量应该在20W左右
4. Bulk Load增量效果不一定好,适合第一次数据导入
5. 一个表的列族数量最好控制在4个以内
6. SecondaryIndex一般来说还是采用多表的模式实现
7. URL做rowkey一般来说是用域名或者(IP+时间+域名)
8. SATA硬盘的I/O Wait一般是在15ms以内,如果太高就有可能是内存不够
9. http://hbaseblog.com/2010/11/30/hbase-coprocessors/官方BLOG(值得看)
10. Hbase Coprocessors,Hbase的工具,可以看
11. Hbase的参数调整有利于集群稳定
12. 集群节点的SWAP需要关闭
13. Zookeeper数量一般来说是3个(需要是奇数,选举机制)。1000台的规模配置7个
14. Compact一般来说采用默认值,如果压缩、分表或是Block时间过长,可以调整
15. 数据压缩一般建议采用LZO的方式
16. MR调度工具,Oozie(工作流串线)
17. Lucene的index存放在Hbase中,实现Hbase数据条内的模糊查询
18. Hbase单条数据size最好不要超过2MB