spark将数据写入hbase以及从hbase读取数据

最新推荐文章于 2024-07-28 23:55:21 发布

古月慕南

最新推荐文章于 2024-07-28 23:55:21 发布

阅读量6.2w

点赞数 14

分类专栏： BigData-器文章标签： hadoop hbase spark

本文链接：https://blog.csdn.net/u013468917/article/details/52822074

版权

本文详细介绍了如何使用Spark的saveAsHadoopDataset和saveAsNewAPIHadoopDataset方法将RDD写入HBase，以及如何从HBase读取数据并转化为RDD。在操作中，需要注意依赖项的配置，包括特定版本的Java、Scala、Zookeeper、Hadoop、Spark和HBase。同时，文章提到了通过设置HBaseConfiguration连接到Zookeeper集群，并建议在HBase shell中预先创建表。

摘要由CSDN通过智能技术生成

本文将介绍

1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset将RDD写入hbase

2、spark从hbase中读取数据并转化为RDD

操作方式为在eclipse本地运行spark连接到远程的hbase。

java版本：1.7.0

scala版本：2.10.4

zookeeper版本：3.4.5（禁用了hbase自带zookeeper，选择自己部署的）

hadoop版本：2.4.1

spark版本：1.6.1

hbase版本：1.2.3

集群：centos6.5_x64

将RDD写入hbase

注意点：

依赖：

将lib目录下的hadoop开头jar包、hbase开头jar包添加至classpath

此外还有lib目录下的：zookeeper-3.4.6.jar、metrics-core-2.2.0.jar（缺少会提示hbase RpcRetryingCaller: Call exception不断尝试重连hbase，不报错）、htrace-core-3.1.0-incubating.jar、guava-12.0.1.jar

$SPARK_HOME/lib目录下的 spark-assembly-1.6.1-hadoop2.4.0.jar

不同的package中可能会有相同名称的类，不要导错

连接集群：

spark应用需要连接到zookeeper集群，然后借助zookeeper访问hbase。一般可以通过两种方式连接到zookeeper：

第一种是将hbase-site.xml文件加入classpath

第二种是在HBaseConfiguration实例中设置

如果不设置，默认连接的是localhost:2181会报错：connection refused

本文使用的是第二种方式。

hbase创建表：

虽然可以在spark应用中创建hbase表，但是不建议这样做，最好在hbase shell中创建表，spark写或读数据

使用saveAsHadoopDataset写入数据

package com.test

import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.io.I

最低0.47元/天解锁文章

古月慕南

关注

14
点赞
踩
75

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录