目前为了对海量数据进行存储管理(hive的优势比较适合数据都是干净的情况,进行相关的统计运算),所以在没有更好的方式下,试探性的使用了HBase,也算是对Hbase初探。
简单地说下使用下来的感受。
好处:数据存储管理简单、适合更新操作,不需要做额外的数据清洗步骤,能节省很多时间。
碰到的问题:就是结合Hive一起做统计计算比较麻烦,测试过几种方案,都不是特别理想,尤其是select * 和select col1,col2这样的语句,通过执行监控数据发现,读取数据的总量(数据容量,不是记录数)都是一样,或许是需要优化下hive与Hbase那个handler.jar包,或许也有其他的方法。目前我们还没有想到吧。
也测试过hive表本身与Hbase表用各种SQL语句执行的效果,发现Hive表上执行SQL的效率高于Hbase表上执行SQL的效率。
目前所出现状况不能说明HBase有什么问题,毕竟我们是刚开始使用,有些问题可能也是我们使用不当导致。
所以对HBase的研究还是需要更加深入点。