- 博客(2)
- 收藏
- 关注
原创 HBaseRDD -- 封装Spark on HBase操作到Spark RDD
最近阅读Spark的源代码,发现Spark使用隐式转换,对rdd进行扩展,提供额外的功能,如PairRDDFunctions,对RDD进行扩展,提供诸如orderByKey等方法,前段时间我们使用Spark操作HBase,由于急着上线,未能对功能进行较好的封装,现在回过头去看,发现其实可以模仿PairRDDFunctions的实现,做一个HBaseRDDFuctions,通过隐式转换,实现对HBa...
2018-06-19 10:12:28 1516
原创 使用spark bulkload加载海量数据到hbase
最近在项目中碰到需要使用spark加载海量数据到hbase的需求,一开始我们使用批量put的方式,这种方式简单,但是带来了一系列的性能问题,一方面速度比较慢,另一方面,由于我们的hbase用来提供oltp服务,导致在加载数据的时候,hbase的region sever频繁GC,严重影响线上交易的响应时间。因此,我们决定使用bulkload的方式来解决这个问题,一路踩坑,终于解决了所有问题,现将遇到...
2018-05-04 09:37:58 3673
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人