spark读取HBase数据的一次坑爹经历

最新推荐文章于 2023-03-19 00:49:28 发布

我就算饿死也不做程序员

最新推荐文章于 2023-03-19 00:49:28 发布

阅读量1.4k

点赞数 3

分类专栏： Spark HBase 文章标签： spark hbase DoNotRetryIOException scala

本文链接：https://blog.csdn.net/sgyuanshi/article/details/101716550

版权

Spark 同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

HBase

4 篇文章 0 订阅

订阅专栏

首先，在这里说明一下，我遇到的错误如下：
org.apache.hadoop.hbase.DoNotRetryIOException：
/192.168.x.x:16020 is unable to read call parameter from client 10.47.x.x
然后，你在spark中读取HBase的方式也与我一样，那么恭喜你，你遇到的问题也许与我一样。

def read(): Unit = {
        val conf = HBaseConfiguration.create()
        val sparkConf = new SparkConf().setMaster("local").setAppName("HBase")
        val sc = new SparkContext(sparkConf)
        // 设置HBase的配置
        conf.set("hbase.zookeeper.property.clientPort", "2181")
        conf.set("hbase.zookeeper.quorum", "slave1,slave2,slave3,spark")
        conf.set("hbase.rootdir", "hdfs://master:9000/hbase")
        conf.set("hbase.master", "master:60000")
        // 设置查询的表明
        conf.set(TableInputFormat.INPUT_TABLE, "spark_test")
        // 注意TableInputFormat需要从org.apache.hadoop.hbase.mapreduce模块导入
        val RDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],
            classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
            classOf[Result])
        val count = RDD.count()
        print("The Count of RDD:" + count)
        RDD.cache()
        // 遍历输出
        RDD.foreach({case(_, result) =>
        val key = Bytes.toString(result.getRow)
        // name是列族，first_name是列名
        val first_name = Bytes.toString(result.getValue("name".getBytes, "first_name".getBytes))
        val last_name = Bytes.toString(result.getValue("name".getBytes(), "last_name".getBytes()))
        printf("ID: %s, first_name: %s, last_name: %s", key, first_name, last_name)
        })
    }

错误原因

那么，造成这个错误的原因是什么？我在网上查了很多资料，结果都没办法解决我的问题，最后自己突发奇想，尝试一下，找到问题所在。
问题就出现在：服务器使用的HBase版本是1.x，如果你使用HBase的依赖版本是2.x，那么就会出现这个问题。
（但是，如果你依赖版本也是1.x，但是与服务器的版本不同，是否仍然会出现这个问题，我没有去试，毕竟没意义，你配置成相同的版本就可以了嘛）
例如，我在scala配置的HBase依赖如下，但是，服务器上的HBase版本是1.3.1

libraryDependencies ++= Seq(
"org.apache.hbase" % "hbase-client" % "2.1.5",
"org.apache.hbase" % "hbase-common" % "2.1.5",
"org.apache.hbase" % "hbase-server" % "2.1.5",
"org.apache.hbase" % "hbase-mapreduce" % "2.1.5")

此时，我只要将依赖配置改成如下即可解决问题

libraryDependencies ++= Seq(
"org.apache.hbase" % "hbase-client" % "1.3.1",
"org.apache.hbase" % "hbase-common" % "1.3.1",
"org.apache.hbase" % "hbase-server" % "1.3.1")

注意事项

HBase的1.x版本依赖包是将hbase-mapreduce集成到hbase核心代码中的，不需要单独添加hbase-mapreduce的依赖，到了2.x版本才将其分出来的。
所以，我们代码中的原先hbase-mapreduce的相关方法，完全不需要改动，也是可以直接使用的。例如下面的TableInputFormat

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.mapreduce.TableInputFormat

欢迎关注同名公众号：“我就算饿死也不做程序员”。
交个朋友，一起交流，一起学习，一起进步。在这里插入图片描述

我就算饿死也不做程序员

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录