Spark运维中遇到的问题

Mumunu-

已于 2023-06-12 11:21:30 修改

阅读量3.5k

点赞数

分类专栏： hadoop devops 文章标签： spark big data

于 2020-08-07 19:12:26 首次发布

本文链接：https://blog.csdn.net/h952520296/article/details/107868834

版权

devops 同时被 2 个专栏收录

95 篇文章 9 订阅

订阅专栏

hadoop

82 篇文章 5 订阅

订阅专栏

1、spark-shell进入scala交互界面报错。

Error: Cluster deploy mode is not applicable to Spark shells.

报错信息如下：

Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark shells.
	at org.apache.spark.deploy.SparkSubmit.error(SparkSubmit.scala:857)
	at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:292)
	at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:143)
	at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
	at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:924)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:933)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

解决方案

使用命令：

spark-shell --master yarn --deploy-mode client

运行成功进入交互页面

原因是因为spark2-shell运行在yarn上面，需要指定模式yarn-client，如果指定yarn-cluster，则会报错：

Error: Cluster deploy mode is not applicable to Spark shells.

因为spark-shell作为一个与用户交互的命令行，必须将Driver运行在本地，而不是yarn上。

其中的参数与提交Spark应用程序到yarn上用法一样。

2、spark-shell进入scala交互界面报错。Exception in thread "main" java.lang.NoSuchMethodError: org.apache.log4j.spi.LoggingEvent.getLogger()Lorg/apache/log4j/Category;

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.log4j.spi.LoggingEvent.getLogger()Lorg/apache/log4j/Category;
at org.apache.spark.internal.SparkShellLoggingFilter.decide(Logging.scala:239)

ERROR util.Utils: Uncaught exception in thread shutdown-hook-0
java.lang.NoSuchMethodError: org.apache.log4j.spi.LoggingEvent.getLogger()Lorg/apache/log4j/Category;

WARN util.ShutdownHookManager: ShutdownHook '$anon$2' failed, java.util.concurrent.ExecutionException: java.lang.NoSuchMethodError: org.apache.log4j.spi.LoggingEvent.getLogger()Lorg/apache/log4j/Category;

查了一下应该是log的jar包冲突把hive-jdbc-2.1.1-cdh6.3.2-standalone.jar 这个jar包换了个名字再运行spark-shell 就可以了

3、启动多个spark-shell一直卡主不动，yarn处于ACCEPTED，spark-shell启动多个，从第二个开始，在default队列下，park-shell一直卡主不动，yarn处于ACCEPTED

原因是因为：

添加以下参数

<property>
<!-- Maximum resources to allocate to application masters
If this is too high application masters can crowd out actual work -->
<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
<value>0.5</value>
</property>

4、spark参数num-executors未生效

问题：

spark-submit --master yarn --conf spark.default.parallelism=100 \
--deploy-mode cluster --driver-memory 4G  --executor-memory 4G  \
--num-executors 40  --executor-cores 2 \
--conf spark.yarn.executor.memoryOverhead=5g \
--class com.lz.hbase.CompanyInfo /tmp/test/original-spark_hbase01-1.0-SNAPSHOT.jar

以上提交参数中的--num-executors 40没有生效，executors 大于40并且占满yarn资源，导致后来的yarn任务阻塞

原因：

官方参数解释

--num-executors NUM
Number of executors to launch (Default: 2).
If dynamic allocation is enabled, the initial number of executors will be at least NUM.

当开启动态分配时，num-executors成为了最小executors 数，而cdh中spark默认开启dynamic allocation，所以当yarn队列资源空闲时，真正的excutor数会大于设置的num-executors

解决方案：

提交参数添加--conf spark.dynamicAllocation.maxExecutors=40 限制最大excutor数

附：spark提交任务模板
spark-submit --master yarn --conf spark.default.parallelism=100 \

--conf spark.dynamicAllocation.maxExecutors=40\
--deploy-mode cluster --driver-memory 4G  --executor-memory 4G  \
--num-executors 40  --executor-cores 3 \
--conf spark.yarn.executor.memoryOverhead=4G \
--class com.lz.hbase.CompanyInfo /tmp/test_langzi/original-spark_hbase01-1.0-SNAPSHOT.jar

5、spark on yarn报错: Futures timed out after 100000 milliseconds

在提交任务命令或者启动配置文件里添加

--conf spark.network.timeout=600
单位是s 不用写
 --conf spark.yarn.am.waitTime=6000s
 --conf spark.sql.broadcastTimeout= 6000
看文档这两个参数也可能有用 可以加了试试

6.spark任务执行变慢。报错CANNOT FIND ADDRESS

开发同事反馈spark任务变得很慢原来1小时的任务需要执行7小时找他要到任务id

去spark ui上找到对应的任务。点进去找到时间很长的任务。

然后再点时间很长的阶段。

点进去

看 aggregated metrics by executor

发现一大堆CANNOT FIND ADDRESS google了一下发现没什么线索。。似乎大家都没遇到过这个问题。根据报错信息怀疑是spark 找不到对应节点。查了一下服务器上的hosts文件果然提交任务的ds没有配置整个机器的完整hosts映射列表补全后执行。解决问题

6.spark submit hive任务报错 org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient permissions (user=test@cdh.com,scope=hbase.meta,params=[table=hbase:meta], action=EXEC)

虽然全程是操作hive 但是却报了这个错误，虽然没有交互到但是spark会校验权限在submit的命令行里添加一下这个参数就行

spark.security.credentials.hbase.enabled=false

7、spark 操作hive 报错 hive.ql.metadata.hiveexception metaexxception does not have privileges for

这不是官方支持的方式。特别是开启了认证之后，开启认证授权后，其实是要求仅使用beeline/jdbc连接hive的方式，连hive cli的方式都是不支持的，原因是hive metastore不支持，spark操作hive的方式和hive cli的方式应该是一致的。

Unsupported Features in CDH 6.3.0 | 6.x | Cloudera Documentation

Authorization With Apache Sentry | 6.3.x | Cloudera Documentation

一定要用的话有两种方式

一个是使用hive权限。另一个是让用户的权限能直接操作hdfs ，本质上都是让你的用户可以直接操作hdfs文件

8、spark 任务卡在最后几个输出removed broadcast on in memory

去spark的页面查看一下任务的执行情况，有执行时间特别长的子任务可能是数据倾斜。执行时间比较平均的话先增加一点资源。可能是资源不足。也有可能是因为临时文件写满了磁盘，此时可以尝试把 yarn.nodemanager.local-dirs 换到比较大的磁盘或者拆分任务

Mumunu-

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark运维中遇到的问题

1、spark-shell进入scala交互界面报错。

Error: Cluster deploy mode is not applicable to Spark shells.

解决方案

2、spark-shell进入scala交互界面报错。Exception in thread "main" java.lang.NoSuchMethodError: org.apache.log4j.spi.LoggingEvent.getLogger()Lorg/apache/log4j/Category;

3、启动多个spark-shell一直卡主不动，yarn处于ACCEPTED，spark-shell启动多个，从第二个开始，在default队列下，park-shell一直卡主不动，yarn处于ACCEPTED

4、spark参数num-executors未生效

问题：

原因：

解决方案：

5、spark on yarn报错: Futures timed out after 100000 milliseconds

6.spark submit hive任务报错 org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient permissions (user=test@cdh.com,scope=hbase.meta,params=[table=hbase:meta], action=EXEC)

7、spark 操作hive 报错 hive.ql.metadata.hiveexception metaexxception does not have privileges for

8、spark 任务卡在最后几个 输出removed broadcast on in memory

8、spark 任务卡在最后几个输出removed broadcast on in memory