hbase入门
文章平均质量分 58
Xiao 伙伴
这个作者很懒,什么都没留下…
展开
-
使用Spark RDD实现HBase分布式scan
使用Spark RDD实现hbase分布式Scan主要思路利用Spark RDD的分布式计算,将一个Scan任务按照自定义的范围切分为小的scan,使用这些RDD实现对scan的并行查询,提高查询效率。核心是手动实现RDD的compute方法与getPartitions方法。关于Spark RDD本文中使用到的关于Spark RDD方面的知识主要集中在RDD分区计算上,查看spark源码即可知道,s原创 2017-01-22 02:10:23 · 1733 阅读 · 0 评论 -
Spark RDD生成HFile快速导入数据到HBase
Spark RDD生成HFile快速导入数据到HBase主要思路通过观察hbase regionserver对put操作的处理,可以发现,数据首先写入到 memstore,在达到指定大小后会调用StoreFile的Writer类将数据flush到存储设 备中,如果开启过压缩算法则会先执行相应的压缩,得到压缩后的数据和数据结 构再进行写入。 通过观察HBase的StoreFileWriter,原创 2017-01-23 02:41:01 · 3101 阅读 · 1 评论 -
使用NewHadoopRDD實現HBase分布式Scan操作
作上文的補充原创 2017-04-27 22:49:19 · 803 阅读 · 0 评论