spark-hbase数据操作心得

最新推荐文章于 2024-08-26 09:00:30 发布

Lcafebabe

最新推荐文章于 2024-08-26 09:00:30 发布

阅读量1.5k

点赞数 1

分类专栏： spark 文章标签： spark hbase 大数据

本文链接：https://blog.csdn.net/github_37835908/article/details/77606419

版权

本文主要分享作者在使用Spark程序操作HBase时的个人心得，包括如何定义方法进行读写，并提供了两种具体操作方式：1) 扫描全表获取Map或List；2) 通过rowkey获取特定数据。建议在数据量不大时使用此类方法，若数据量大则不推荐。

摘要由CSDN通过智能技术生成

通过spark程序读写hbase的方法百度上太多了，这里我就不一一列举，这里我要分享的是我在开发spark程序对hbase读写时喜欢使用的方法，水平有限，还望指点。

我的hbase表结构是简单的rowkey + cfamily：”INFO” + value

首先，定义几个方法

/**
* 扫描全表，返回数据集
* @param connection: Connection
* @param tableName: String
* @return Map[String,List[(String,String)]]  返回值为rowKey->List[(column ，value)]
*/
def getResultMap(connection: Connection, tableName: String): Map[String, List[(String, String)]] = {
    connection.getTable(TableName.valueOf(tableName)).getScanner(new Scan).toList
    .map(result =>
        (new String(result.getRow),result.raw.toList.map(cv => (new String(cv.getQualifier), new String(cv.getValue))))
        ).toMap
  }

/**
* 通过rowkey，get对应的结果
* @param connection: Connection
* @param tableName: String
* @param key: String
* @return Map[String, String]  返回值为column -> value
*/
def getResultMap(connection: Connection, tableName: String, key: String): Map[String, String] = {
    val userTable = TableName.valueOf(tableName)
    val tabl