使用spark将数据以bulkload的方式写入Hbase时报错

最新推荐文章于 2024-08-14 18:12:00 发布

zhaokunpeng1593

最新推荐文章于 2024-08-14 18:12:00 发布

阅读量1.3k

点赞数

分类专栏： spark 文章标签： spark Hbase bulkload

本文链接：https://blog.csdn.net/u012719230/article/details/81456141

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Exception in thread "main" java.io.IOException: Trying to load more than 32 hfiles to one family of one region

从报错日志中可以很明显看出因为Hfiles的个数超出了32默认的时32,关键时怎么改的问题，我们用的是CDH在Hbase的webui页面，没找到类似配置，通过在网上查找资料发现可以在程序中设置。

conf.setInt(LoadIncrementalHFiles.MAX_FILES_PER_REGION_PER_FAMILY,“你要设置的Hfile个数”)

在设置个数的时候也遇到一个坑，刚开始改成64，提示超出了64，设置成96又提示超出了96，到底设置多少才合适呢？
这要看你在临时文件中生成了多少Hfile文件

result.saveAsNewAPIHadoopFile("/tmp/hbaeTest", classOf[ImmutableBytesWritable], classOf[KeyValue],
  classOf[HFileOutputFormat], conf)

val bulkLoader = new LoadIncrementalHFiles(conf)
bulkLoader.doBulkLoad(new Path("/tmp/hbaeTest"), table)

去这个目录看一下有多少个文件设置成多少就可以了

如果临时文件在HDFS上直接使用：hadoop fs -count /tmp/hbaeTest 命令就可以知道生成了多少个HFile文件了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhaokunpeng1593

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中

击水三千里的专栏

04-11

566

Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中

【Spark 实战系列】Spark 使用 BulkLoad 同步数据到 hbase 排序优化

JasonLee实时计算

11-20

1372

最近群里有同学问我 spark 用 bulk 写入 hbase 的时候报错，因为 rowkey 排序的问题，今天带大家分析一下这个问题，先看下面的 demo。

参与评论您还未登录，请先登录后发表或查看评论

spark-hbase-BulkLoad

最新发布

celltobig的专栏

08-14

580

方法2: BulkLoad 的方式导入，spark 读取 hive 表，写入hbase 需要的 HFile 类型的文件，写在 hdfs 上面，再使用BulkLoad ，把数据加载移动到hbase表中。缺点: 数据量较大会建成hbase regionserver 压力大，可能会导致regionserver not online ，宕机，造成服务不可用的状态，数据量小没事。方法1：先建 hbase表，再建hbase的外表hive表，做好字段映射，起一个MR 任务写入 hive外表，

Spark-2.3.2 HBase BulkLoad

weixin_30855099的博客

06-18

1512

在大量数据需要写入HBase时，通常有Put方式和BulkLoad两种方式。 Put不做解释。 BulkLoader方式的优势在于：　　1、不会触发WAL预写日志，当表还没有数据时进行数据导入不会产生Flush和Split。　　2、减少接口调用的消耗，是一种快速写入的优化方式。但如果使用Spark操作HBase BulkLoader时，需要对数据的Qualifier按字典序排序，再...

使用spark进行hbase的bulkload

抛物线的博客

07-22

1050

Datax从其他数据源迁移数据到 HBase 实际上是走的 HBase 原生 api 接口，在少量数据的情况下没有问题，但当我们需要从 Hive 里，或者其他异构存储里批量导入几亿，几十亿的数据，那么用 DataX 这里就显得不那么适合，因为走原生接口为了避免影响生产集群的稳定性一定要做好限流，那么海量数据的迁移就很很慢，同时数据的持续写入会因为 flush，compaction 等机制占用较多的系统资源。在过去的几年里，HBase 有了长足的发展，它在越来越多的公司里扮演者越来越重要的角色。

spark将数据加载到hbase--bulkload方式

Nickkun的博客

11-22

2090

通过bulkload方式加载数据优点：与put方式相比 1.导入过程不占用Region资源 2.能快速导入海量的数据 3.节省内存应该是业界将数据载入hbase常用方式之一，因此有必要学习掌握实现步骤步骤一读取数据生成rdd 读入数据是面向行的表，一行有多个字段，需要转换成面向列的数据，构造keyValue对象，一定要注意key们要排序，比如user:age列要在user:gender列之前需要设计行键保证行键唯一和避免数据都涌入一个region，如我的是按时间设计的，好几个月的数据，因此将数据

spark通过 BulkLoad 方式海量数据写入hbase

yy的博客

01-15

481

spark hbase bulkLoad

通过Spark生成HFile，并以BulkLoad方式将数据导入到HBase

大数据学习与分享的博客

08-27

1517

在实际生产环境中，将计算和存储进行分离，是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一，并且通过集群的扩容、性能的优化，确保在数据大幅增长时，存储不能称为系统的瓶颈。具体到我们实际的项目需求中，有一个典型的场景，通常会将Hive中的部分数据，比如热数据，存入到HBase中，进行冷热分离处理。我们采用Spark读取Hive表数据存入HBase中，这里主要有两种方式：通过HBase的put API进行数据的批量写入通过生成HFile文件，然后通过BulkLoad方式将数据存入HBas

Spark BulkLoad批量读写Hbase

lyd882的博客

02-28

1592

Spark BulkLoad批量读写Hbase Spark读写Hbase，不要使用put逐条数据插入，效率太低了，要使用批量导入的方式！要分Hbase版本来做不同处理： Hbase 1.x版本依赖：  <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client&lt

Spark使用Bulk Load将大量数据导入HBase以及遇到一些问题及解决方案

haibucuoba的博客

05-28

1597

1、涉及jar包依赖 <properties> <spark.version>2.3.2</spark.version> <java.version>1.8</java.version> <scala.version>2.11.8</scala.version> <scala.major.version>2.11</scala.major.

HBase实操 | 使用Spark通过BulkLoad快速导入数据到HBase

weixin_34355559的博客

11-16

407

HBase社区直播本期分享专家：明惠(网名：过往记忆)-阿里云数据架构师视频地址： https://yq.aliyun.com/live/590?spm=a2c4e.11155435.0.0.460177969kCLxf PPT地址： https://yq.aliyun.com/download/3033 PS：欢迎关注HBase+Spark团队号h...

Spark doBulkLoad数据进入hbase

qq_25954159的博客

10-18

3740

踩了很多坑，终于把数据做成HFile文件。 package com.hun.scala import java.text.SimpleDateFormat import java.util.Date import org.apache.commons.codec.digest.DigestUtils import org.apache.hadoop.fs.Path impor

Hbase BulkLoad用法

qq_41982570的博客

03-09

1030

Hbase BulkLoad用法

Spark写Hbase如何提高Bulkload的速度

小湘西的博客

05-12

730

很多时候我们在写HFile的时候都会进行repartition使用的是repartitionAndSortWithinPartitions，其中Spark也提供几种repartition的实现如HashPartitioner、RangePartitioner，但当数据量大的时候就会出现性能问题，就会变慢。在load的时候，是会按照Hbase的分区，把数据放到对应分区里面，这里面就会有两个问题，1.如果一个HFile文件对应多分区数据，在load的时候就会进行文件拆分（具体看代码扩展Partitioner。

Spark写入HBase（BulkLoad方式）

窗外的屋檐

04-20

1415

在使用Spark时经常需要把数据落入HBase中，如果使用普通的Java API，写入会速度很慢。Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢？ BulkLoad不会写WAL，也不会产生flush以及split。如果我们大量调用PUT接口插入数据，可能会导致大量的GC操作。除了影响性能之外，严重时甚至可能会对HBase节点的稳定性造成影响。但是采用Bul...

使用Spark通过Bulkload的方式导数据到Hbase

qq1010234991的博客

08-10

1122

文章目录 Spark通过Bulk Load 写入Hbase 背景 BulkLoad Bulk Load的实现原理使用Put普通的方式 java put方式使用 Bulk Load方式导入数据数据准备 maven依赖完整代码 Hbase中结果总结其他 Spark通过Bul...

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

统木木的博客

09-21

581

转载本文请加上：转载自过往记忆（https://www.iteblog.com/）本文链接:【通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]】（https://www.iteblog.com/archives/1889.html）在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方...

使用bulkload方式加载数据到HBase（三种方式）

ShiHao_Li的博客

06-01

2010

使用spark把hive数据bulkload到HBase 场景：最近有大量数据存在hive里，由于业务需呀，把hive数据放到HBase里于是想到如下三种方案： 1.使用hive表映射hbase CREATE external TABLE `hbase_website`( `key` string, `ocid` string, `companyname` string, `createtime` bigint, `updatetime` bigint, `sitenam

Spark通过BulkLoad高效将Hive表迁移到HBase

- 接着，通过`HBaseSink`将数据写入HBase，设置适当的参数，如`withBloomFilter`、`writeBufferSize`等，以控制写入性能和数据一致性。 5. **触发BulkLoad**: - 使用`saveAsTable`或`write`函数，指定目标HBase...