环境 :CDH 6.3.2 spark2.4.0 hive 2.1.1
背景:5月份进行集群迁移,升级CDH,调度工具换成Dolphin Scheduler,迁移后程序运行始终不稳定,发现一个非常常见的错误,如下图:
当时也看了针对报错,看了网上的解决方案,我们架构师改了影响spark连接超时的三个参数:
hive.spark.client.server.connect.timeout=30000
hive.spark.client.connect.timeout=30000
hive.spark.client.future.timeout=300
修改完之后,问题仍然没有解决,就因为这个小bug,经常导致我们Dolphin Scheduler任务跑完了,hive分区中的数据没数,或者程序直接报错,虽然Dolphin Scheduler有重试功能,但是一直这样子下去,会让人感觉,这个hive on spark 不靠谱,不稳定,动不动就连接超时,重试还会增加任务运行时间。虽然解决不了,但是看着每天任务日志上几十几十的报错任务,心里也揪心,这个问题就不能彻底解决吗?
在某周三的上午,皱着眉头一直在想这个问题,整合网上的问题解决方案,对着日志沉思,究竟是哪里出了问题?在我细心的观察下,我发现了问题的关键,参数是设置了,但是设置错地方了&
Timed out waiting for Remote Spark Driver to connect to HiveServer2报错解决办法
最新推荐文章于 2024-07-24 14:59:47 发布
在CDH 6.3.2和Spark 2.4.0环境中,遇到'Timed out waiting for Remote Spark Driver to connect to HiveServer2'的错误。尝试修改hive.spark.client.*超时参数无效。最终发现参数需配置在Gateway Default Group而非Hive服务范围内,重启集群后,问题得到解决,Dolphin Scheduler任务运行稳定。
摘要由CSDN通过智能技术生成