spark core 根据查询条件条件删除hbase数据

最新推荐文章于 2023-09-07 12:36:32 发布

逃跑的沙丁鱼

最新推荐文章于 2023-09-07 12:36:32 发布

阅读量1.4k

点赞数

分类专栏：学习爱好文章标签： spark hbase 按查询条件删除 java scala 代码批量删除hbase spark 集群分布式删除hbase数据

本文链接：https://blog.csdn.net/m0_37813354/article/details/101067912

版权

主要策略：

一，读取hbase表数据

二，获取rowkey字段，和过滤条件用的字段

三，根据过滤条件，只保留需要删除的数据的rowkey

四，分批次删除hbase 数据（我这里每个批次10000条）

具体代码如下：

package ezr.bigdata.spark.hbase

import java.util.{ArrayList, List}

import org.apache.hadoop.hbase.client._
import org.apache.hadoop.hbase.protobuf.ProtobufUtil
import org.apache.hadoop.hbase.util.{Base64, Bytes}
import org.apache.hadoop.hbase.{CellUtil, HBaseConfiguration, TableName}
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.JavaConversions._

/**根据品牌删除hbase数据
  * 参数 必须大于等于2个
  *   第一个参数：hbase 表名炒年糕
  *   第二个参数开始：品牌的brandId（可以是多个品牌id空格隔开）
  *   例如：
  *     ① pro:crm_vip_info_grade_log1 333 319
  *     ② pro:crm_vip_info_grade_log1 333 
  *
  * Created by liucf on 09/20/2019.
  */
object DeleteDataByBrand {
  def convertScanToStrin