spark程序跨集群操作的一点思路

最新推荐文章于 2022-05-04 18:32:47 发布

hblicy

最新推荐文章于 2022-05-04 18:32:47 发布

阅读量1k

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/hblicy/article/details/103164504

版权

Hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

现有2个集群如下：

1、hdp，使用hive和yarn，有kerberos认证

2、cdh，使用kafka和phoenix，无kerberos认证

spark程序部署在hdp客户端机器。

场景1：spark streaming程序yarn client模式读取cdh kafka数据写入hdp hive，经测试在hdp客户端主机跑local模式可行，跑yarn client模式报错，org.apahce.spark.SparkException: Couldn't connect to leader for topic xxx 9；java.nio.channels.ClosedChannelException

解决方案：由于kafka默认通过主机名访问，在hdp集群机器上没有加入cdh的hosts文件，所以在executor上连接不到kafka，一是在hdp集群内所有机器添加hosts文件，二是在kafka每个实例参数配置advertised.host.name填入ip地址

场景2：spark程序yarn client模式读取hdp hive数据写入cdh phoenix，程序内hbase-site.xml文件使用cdh的，yarn-site.xml和hive-site.xml使用hdp的，经测试在hdp客户端主机跑local模式可行，跑yarn client模式报错，org.apahce.hadoop.hbase.security.AccessDeniedException: Insufficient permissions for user 'xxx',

解决方案：由于在hdp集群机器上没有加入cdh的hosts文件，所以在executor上连接不到hbase，一是在hdp集群内所有机器添加hosts文件，二是在将cdh集群的主机名强制为IP地址，hdfs配置添加dfs.namenode.datanode.registratin.io-hostname-check: false

hblicy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark程序跨集群操作的一点思路

现有2个集群如下：1、hdp，使用hive和yarn，有kerberos认证2、cdh，使用kafka和phoenix，无kerberos认证spark程序部署在hdp客户端机器。场景1：spark streaming程序yarn client模式读取cdh kafka数据写入hdp hive，经测试在hdp客户端主机跑local模式可行，跑yarn client模式报错，org....
复制链接

扫一扫