sparkSQL 查询hbase

 1.在spark/jars目录下建立./hbase目录,然后拷贝以下jar包导该目录

cd  /usr/local/spark/jars
mkdir  hbase
cd  hbase
cp  /usr/local/hbase/lib/hbase*.jar  ./
cp  /usr/local/hbase/lib/guava-12.0.1.jar  ./
cp  /usr/local/hbase/lib/htrace-core-3.1.0-incubating.jar  ./
cp  /usr/local/hbase/lib/protobuf-java-2.5.0.jar  ./

 $HIVE_HOME/lib/hive-hbase-handler-0.13.1.jar

下载spark-example-1.6.0.jar也放入

然后把此包传到每个节点

2.编辑spark-env.sh,加入以下(每个节点)

export SPARK_DIST_CLASSPATH=$(/usr/BigData/hadoop/bin/hadoop classpath):$(/usr/BigData/hbase/bin/hbase classpath):/usr/BigData/spark/jars/hbase/*
from pyspark import SparkContext, SparkConf

conf = SparkConf().setMaster('spark://master:7077').setAppName('SparkTest_Transformation')
sc = SparkContext(conf=conf)  # 连接到spark集群
host = 'localhost'
table = 'hbase_sql'
conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": table}
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"
hbase_rdd = sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat",
                               "org.apache.hadoop.hbase.io.ImmutableBytesWritable",
                               "org.apache.hadoop.hbase.client.Result", keyConverter=keyConv, valueConverter=valueConv,
                               conf=conf)
count = hbase_rdd.count()
hbase_rdd.cache()
output = hbase_rdd.collect()
for (k, v) in output:
    print(k, v)

感觉查询速度很慢,适合做统计分析?实时查询怎么办。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值