Spark 读取 Hbase 优化 --手动划分 region 提高并行数

一. Hbase 的 region

我们先简单介绍下 Hbase 的 架构和 region :

从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又可以有多个 Hregion(以下简称 region)。要读取一个数据的时候,首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候,读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少,而 spark 的 cpu core 又比较多的时候,就会出现无法充分利用 spark 集群所有 cpu core 的情况。

我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。

  • Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动split策略中,当一个region达到一定的大小就会自动split成两个region。
  • Region由一个或者多个Store组成,每个store保存一个columns family,每个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中, StoreFile存储在HDFS上
  • region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上,但并不是存储的最小单元。

二. Spark 读取 Hbase 优化及 region 手动拆分

在用spark的时候,spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会导致spark读取时的并发度太低,浪费性能。但如果region数目太多就会造成读写性能下降,也会增加ZooKeeper的负担。所以设置每个region的大小就很关键了。

自0.94.0版本以来,split还有三种策略可以选择,不过一般使用默认的分区策略就可以满足需求,我们要修改的是会触发 region 分区的存储容量大小。

而在0.94.0版本中,默认的 region 大小为10G,就是说当存储的数据达到 10 G 的时候,就会触发 region 分区操作。有时候这个值可能太大,这时候就需要修改配置了。我们可以在 HBASE_HOME/conf/hbase-site.xml 文件中,增加如下配置:

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的触发 region 分区的大小,要注意这个值是以 bit 为单位的,这里是将region文件的大小改为512m。

修改之后我们就可以手动 split region了,手动分区会自动根据这个新的配置值大小,将 region 已经存储起来的数据进行再次进行拆分。

我们可以在 hbase shell 中使用 split 来进行操作,有以下几种方式可以进行手动拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

这里使用的是 split ‘namespace:tableName’ 这种方式。其中 tableName 自不必多说,就是要拆分的表名,namespace可以在hbase的web界面中查看,一般会是default。

使用命令之后稍等一会,hbase会根据新的region文件大小去split,最终结果可以在web-ui的"table Details"一栏,点击具体table查看。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
您可以使用Apache HBase Connector for Apache Spark读取HBase中的据。首先,您需要在Spark应用程序中添加相关的依赖项。在Maven项目中,您可以添加以下依赖项: ```xml <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-spark</artifactId> <version>2.4.7</version> </dependency> ``` 接下来,您可以使用以下代码来读取HBase中的据: ```scala import org.apache.hadoop.hbase.{HBaseConfiguration, HConstants} import org.apache.hadoop.hbase.spark.HBaseContext import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object HBaseReader { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("HBase Reader") val spark = SparkSession.builder().config(sparkConf).getOrCreate() val hbaseConf = HBaseConfiguration.create() hbaseConf.set(HConstants.ZOOKEEPER_QUORUM, "your_zookeeper_quorum") // 设置其他HBase配置 val hbaseContext = new HBaseContext(spark.sparkContext, hbaseConf) val tableName = "your_table_name" val columnFamily = "your_column_family" val columnName = "info:date" val hbaseRDD = hbaseContext.hbaseRDD(tableName, scan => { // 设置扫描器以获取特定日期的据 scan.addColumn(columnFamily.getBytes, columnName.getBytes) scan.setStartRow("2023-07-01".getBytes) scan.setStopRow("2023-07-02".getBytes) scan }) // 将HBase RDD转换为DataFrame或其他需要的据结构 val dataFrame = spark.createDataFrame(hbaseRDD.map(_._2)) // 进行进一步的据处理或分析 dataFrame.show() spark.stop() } } ``` 在上述代码中,您需要替换以下内容: - `your_zookeeper_quorum`:HBase的Zookeeper quorum地址。 - `your_table_name`:要读取HBase表名。 - `your_column_family`:包含要读取的列的列族名。 - `info:date`:要读取的列名。 - `scan.setStartRow`和`scan.setStopRow`:设置扫描器以获取特定日期的据。 请确保您的Spark应用程序能够连接到HBase,并且具有适当的权限来读取据。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值