spark杂(二)

最新推荐文章于 2021-08-12 01:27:28 发布

老乔家大哥

最新推荐文章于 2021-08-12 01:27:28 发布

阅读量1k

点赞数

分类专栏：大数据 spark hbase 文章标签： spark hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QIAOtinger/article/details/45250163

版权

大数据同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

主要是操作HBase

spark集成hbase 缺少类可在spark-env.sh中设置SPARK——CLASSPASTH

SPARK_CLASSPATH=/opt/hbase/lib/*

如果报java.lang.NoSuchMethodError或java.lang.NoSuchFieldError则可能是jar冲突，依赖的jar单独放在一个目录，不要有重复的jar

操作程序如下

import org.apache.spark.SparkContext

import org.apache.spark._

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.HTableDescriptor

import org.apache.hadoop.hbase.client.HBaseAdmin

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

import org.apache.hadoop.hbase.HColumnDescriptor

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.hbase.client.Put

import org.apache.hadoop.hbase.client.HTable

import org.apache.hadoop.hbase.client.Result

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.client.Delete

object SparkHBase1 extends Serializable {

def main(args: Array[String]) {

val sc = new SparkContext("spark://centos.host1:7077", "SparkHBase")

val conf = HBaseConfiguration.create()

conf.set("hbase.zookeeper.property.clientPort", "2181")

conf.set("hbase.zookeeper.quorum", "centos.host1")

conf.set("hbase.master", "centos.host1:60000")

conf.addResource("/home/hadoop/software/hbase-0.92.2/conf/hbase-site.xml")

conf.set(TableInputFormat.INPUT_TABLE, "user")

val admin = new HBaseAdmin(conf)

if (!admin.isTableAvailable("test")) {

print("Table Not Exists! Create Table")

val tableDesc = new HTableDescriptor("test")

tableDesc.addFamily(new HColumnDescriptor("basic".getBytes()))

admin.createTable(tableDesc)

}

//Put操作

val table = new HTable(conf, "user");

for (i <- 1 to 5) {

var put = new Put(Bytes.toBytes("row" + i))

put.add(Bytes.toBytes("basic"), Bytes.toBytes("name"), Bytes.toBytes("value " + i))

table.put(put)

}

table.flushCommits()

//Delete操作

val delete = new Delete(Bytes.toBytes("row1"))

table.delete(delete)

//Scan操作

val hbaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],

classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

classOf[org.apache.hadoop.hbase.client.Result])

val count = hbaseRDD.count()

println("HBase RDD Count:" + count)

hbaseRDD.cache()

val res = hbaseRDD.take(count.toInt)

for (j <- 1 until count.toInt) {

println("j: " + j)

var rs = res(j - 1)._2

var kvs = rs.raw

for (kv <- kvs)

println("rowkey:" + new String(kv.getRow()) +

" cf:" + new String(kv.getFamily()) +

" column:" + new String(kv.getQualifier()) +

" value:" + new String(kv.getValue()))

}

System.exit(0)

}

}

操作脚本如下（前面部分）

scala> import org.apache.spark._

import org.apache.spark._

scala> import org.apache.spark.rdd.NewHadoopRDD

import org.apache.spark.rdd.NewHadoopRDD

scala> import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configuration

scala> import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.HBaseConfiguration

scala> import org.apache.hadoop.hbase.mapreduce.TableInputFormat

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

scala> val configuration = HBaseConfiguration.create(); //初始化配置

configuration: org.apache.hadoop.conf.Configuration = Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml, yarn-default.xml, yarn-site.xml, hbase-default.xml, hbase-site.xml

scala> configuration.set("hbase.zookeeper.property.clientPort", "2181"); //设置zookeeper client端口

scala> configuration.set("hbase.zookeeper.quorum", "localhost"); //设置zookeeper quorum

scala> configuration.set("hbase.master", "localhost:60000"); //设置hbase master

scala> configuration.addResource("/home/victor/software/hbase/conf/hbase-site.xml") //将hbase的配置加载

scala> import org.apache.hadoop.hbase.client.HBaseAdmin

import org.apache.hadoop.hbase.client.HBaseAdmin

scala> val hadmin = new HBaseAdmin(configuration);

老乔家大哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark杂(二)

主要是操作HBasespark集成hbase 缺少类可在spark-env.sh中设置SPARK——CLASSPASTHSPARK_CLASSPATH=/opt/hbase/lib/*如果报java.lang.NoSuchMethodError或java.lang.NoSuchFieldError则可能是jar冲突，依赖的jar单独放在一个目录，不要有重复的jar操作程序如下
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。