此篇文章主要介绍用spark如何读取hbase中的数据。
spark官方提供了用spark直接读取hbase的方法,但是直接读取hbase的数据类似于hbase shell中的scan方法全表扫描,当然如果知道rowkey当然就不会有什么问题,但是在真实的业务场景中onebyone通过rowkey去取hbase的数据是不现实的,这样也没用必要用spark去跑数据,因为发挥不出spark的性能,当用spark批量取hbase中数据去处理时,spark提供的方法就会存在很多问题。可参照一下代码:
host = 'hadoop03'
table = 'test'
conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": table,"zookeeper.znode.parent":"/hbase-unsecure"}
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv = "org.apache.s