Spark读取Hive报错：java.lang.outofmemoryerror: java heap space

最新推荐文章于 2022-12-08 14:17:28 发布

訾零

最新推荐文章于 2022-12-08 14:17:28 发布

阅读量2.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark Hive 文章标签： spark读取hive问题

本文链接：https://blog.csdn.net/lingeio/article/details/101045324

Spark本地测试Hive数据时，报错：

java.lang.outofmemoryerror: java heap space

因为是本地测试，内存足够，所以IDEA中增大内存。Run/Bebug Configurations 中 VM options 设置 -Xmx2048m，问题同样。

基本排除了是内存不足的问题，可能存在问题的地方。

1. AppName

检查 Spark 配置，因为偷懒配置是直接拷贝其他类的，发现 appName 设置错误，改成当前类。

读简单的表没有问题了，但是读复杂的表问题同样。

SparkSession.builder().appName(s"${this.getClass.getSimpleName}")

2. Master

继续检查。因为本地测试，master 为 local 模式，直接调用了常量类设置的好的 Constants.SPARK_LOCAL_MODE。

查看设置成了 local[4]，删除，使用全部核心进程处理。再运行，问题解决。

  val SPARK_LOCAL_MODE = "local"

可以看出，有时候报内存堆栈问题并非都是内存不足。

object SdkUserBehaviorDaily {
  private val warehouseLocation: String = new File("spark-warehouse").getAbsolutePath

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

訾零

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

hive java.lang.OutOfMemoryError: Java heap space

04-09

3713

hive 开启了hiveServer2服务，连接了一段时间就拒绝连接，hive日志报错如下： Exception in thread "org.apache.hadoop.hive.common.JvmPauseMonitor$Monitor@56b9d43f" java.lang.OutOfMemoryError: Java heap space Exception in thread "Tri...

执行Hive出现Error running child : java.lang.OutOfMemoryError: Java heap space错误

weixin_33724046的博客

05-12

2239

具体错误日志如下： 2018-05-11 15:16:49,429 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: Java heap space at java.nio.HeapByteBuffer.<init>(HeapByteB...

1 条评论您还未登录，请先登录后发表或查看评论

spark报错java.lang.OutOfMemoryError: Java heap space

liuxuejiang158的专栏

08-01

2万+

spark报错： java.lang.OutOfMemoryError: Java heap space 解决飞

hive报错 spark_Spark读取Hive报错：java.lang.outofmemoryerror: java heap space

weixin_39733948的博客

12-20

379

Spark本地测试Hive数据时，报错：java.lang.outofmemoryerror: java heap space因为是本地测试，内存足够，所以IDEA中增大内存。Run/Bebug Configurations 中 VM options 设置-Xmx2048m，问题同样。基本排除了是内存不足的问题，可能存在问题的地方。1. AppName检查 Spark 配置，因为偷懒配置是直接拷...

内存溢出 ava.lang.OutOfMemoryError: Java heap space

renkui的专栏

07-23

845

有三种可能导致OutOfMemoryError。首先是，此JVM有真实的内存泄漏，导致此JVM堆在内部实现时产生了一个Bug。这极不可靠。所有JVM都经过充分的测试，并且，如果有人发现这种bug，它将绝对是最高的优先级。因此你可以非常宽心地排除这种可能性。第二种可能的OutOfMemoryError原因只不过是，你没有为你的应用程序运行时给予足够多的可用内存。这种情况，有两种可能的方案，

spark 2.X 疑难问题汇总

热门推荐

简单就好

12-29

3万+

当前spark任务都是运行在yarn上，所以不用启动长进程worker，也没有master的HA问题，所以主要的问题在任务执行层面。作业故障分类故障主要分为版本，内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题版本不一致 1）java版本不一致报错：java.lang.UnsupportedClassVersionError: com/im

spark常见问题错误汇总

我丶怀念的的博客

08-13

5846

一.经验 1.Spark Streaming包含三种计算模式：nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作归根结底是对RDD的操作 4.部署Spark任务，不用拷贝整个架包，只需拷贝被修改的文件，然后在目标服务器上编译打包。 5.kafka的log.dirs不要设置成/tmp下的目录，貌似...

Hive on spark 配置

weixin_44701015的博客

06-19

3067

参考文档 https://docs.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.html#hos_running http://bdlabs.edureka.co/static/help/topics/admin_hos_tuning.html https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/admin_hos_tuning.html 1

Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Java heap space

01-04

当遇到 `java.lang.OutOfMemoryError: Java heap space` 错误时，这通常意味着 JVM 的堆内存不足以完成当前操作。对于 Hive 来说，在执行复杂的查询或大量数据处理的任务期间可能会发生这种情况。 #### 调整 JVM ...

Hive报错：Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

刘李404not_found的博客

08-06

1812

报错 Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3332) at java.lang.AbstractStringBuilder.ensureCapacityInternal(AbstractStringBuilder...

Hive报错java.lang.OutOfMemoryError: Java heap space的解决方案

攻城狮Kevin

03-15

7293

Hive查询时，报错java.lang.OutOfMemoryError: Java heap space 这种情况属于JVM堆内存溢出了，在yarn-site.xml文件中添加如下代码 <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>2048</...

hive tez报错：java.lang.OutOfMemoryError: Java heap space

weixin_42582611的博客

12-08

1472

hive tez报错：java.lang.OutOfMemoryError: Java heap space

spark java heap spacp_Spark 运行出现java.lang.OutOfMemoryError: Java heap space

weixin_39884832的博客

02-26

296

******:bin duyang$ ./spark-submit --helpUsage: spark-submit [options] [app arguments]Usage: spark-submit --kill [submission ID] --master [spark://...]Usage: spark-submit --status [submission ID] --ma...

spark java.lang.OutOfMemoryError: Java heap space

FightForProgrammer的专栏

11-14

1941

spark java.lang.OutOfMemoryError: Java heap space 经常遇到此问题，这个说得很详细 http://stackoverflow.com/questions/21138751/spark-java-lang-outofmemoryerror-java-heap-space

Spark PCA 特征时 java.lang.OutOfMemoryError: Java heap space

大师兄你家猴跑啦的博客

03-10

1039

1、背景：样本量在2W左右，特征数在1W左右；利用spark 的pca 特征时，总报错 java.lang.OutOfMemoryError: Java heap space；2、解决方法：spark.driver.maxResultSize", "40g" 产生的结果大于默认的1024M,需要的话设置大点； --driver-memory 100g （大点）...

spark java heap spacp_Spark java.lang.OutOfMemoryError : Java Heap space

weixin_27645199的博客

02-26

408

问题I am geting the above error when i run a model training pipeline with spark`val inputData = spark.read.option("header", true).option("mode","DROPMALFORMED").csv(input).repartition(500).toDF("b", "c"...

spark运行中的java.lang.OutOfMemoryError: Java heap space错误

婧萱

01-09

6547

问题描述：我在执行我的spark代码过程中，出现了如标题所示的问题以下为我执行的主要代码： ss=e_Task_test.engine() diag_hos=l_patient.map(lambda x:(ss.get_hospital(x),ss.get_patient_diag(x))) dh_all=diag_

解决Hive查询出现Java.lang.OutMemoryError.java heap space

炼丹笔记

11-15

2722

解决出现Java.lang.OutMemoryError.java heap space和FAILED：Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

hive on spark 报错 Caused by: java.lang.ClassNotFoundException: scala.Cloneable

最新发布

07-27

### 问题分析在 Hive on Spark 运行过程中出现 `java.lang.ClassNotFoundException: scala.Cloneable` 错误，通常表明运行环境中缺少 Scala 相关的类库，尤其是 `scala-library`。Spark 是基于 Scala 开发的，依赖 Scala 的标准库运行，因此在执行 Spark 任务时，JVM 必须能够加载 Scala 的核心类。该问题可能由以下原因引起： - **缺少 Scala 依赖**：运行环境中未正确引入 `scala-library` 或其版本与 Spark 不兼容。 - **依赖作用域配置错误**：Maven 项目中将 Scala 相关依赖设置为 `<scope>provided</scope>`，导致运行时缺失必要的类。 - **类加载冲突**：多个版本的 Scala 被同时加载，导致类冲突或无法找到特定类。 ### 解决方法确保 `scala-library` 被正确引入，并且其作用域未被错误地设置为 `provided`。例如，在 `pom.xml` 中应包含如下依赖： ```xml <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.12.15</version> </dependency> ``` 如果该依赖被设置为 `provided`，则需要将其删除或改为默认作用域，以确保在构建过程中将其打包进最终的 JAR 文件中 [^2]。在 Hive 的运行环境中，应将 `scala-library` 的 JAR 文件手动复制到 `$HIVE_HOME/lib/` 目录下，以确保 Hive 启动时能够加载 Scala 的核心类： ```bash cp scala-library-2.12.15.jar $HIVE_HOME/lib/ ``` 此外，若使用 `spark-submit` 提交 Hive 任务，应通过 `--jars` 参数指定 `scala-library` 的路径，确保运行时类路径中包含该依赖： ```bash spark-submit \ --jars /path/to/scala-library-2.12.15.jar \ --class org.apache.hadoop.hive.ql.exec.spark.SparkTask \ your-hive-job.jar ``` ### 版本兼容性检查 Spark 与 Scala 的版本需保持兼容。例如，Spark 3.x 通常与 Scala 2.12 兼容，而 Spark 2.x 可能依赖 Scala 2.11。如果使用了不匹配的 Scala 版本，可能导致类加载失败或运行时异常 [^1]。在构建 Hive on Spark 项目时，应确保所有依赖项（包括 Spark 和 Scala）的版本一致，并与 Hive 的版本兼容。例如，Hive 3.x 推荐使用 Spark 3.x 和 Scala 2.12 的组合。 --- ### 示例配置以下是一个完整的 `pom.xml` 片段，确保 Scala 依赖被正确引入： ```xml <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.12.15</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.5.0</version> </dependency> </dependencies> ``` 确保未使用 `<scope>provided</scope>`，以避免运行时类缺失。 --- ###