spark在hadoop2.2.0 HA配置下的问题

最新推荐文章于 2023-11-23 11:50:33 发布

smallboy2011

最新推荐文章于 2023-11-23 11:50:33 发布

阅读量5.3k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/smallboy2011/article/details/37969237

版权

在Hadoop2.2.0的高可用(HA)配置下，Spark遇到使用mycluster作为HDFS路径时无法找到的问题。通过检查Namenode状态并指定active Namenode的主机名，问题得到解决。为使Spark继承Hadoop集群配置，需将Hadoop的配置文件包含在Spark的类路径中，通常位于/hadoop2.2.0/etc/hadoop目录下。通过在spark-env.sh中设置HADOOP_CONF_DIR变量，可以确保Spark能找到配置文件并正确解析HA环境下的namenode名称。

摘要由CSDN通过智能技术生成

scala> val rdd1 = sc.textFile("hdfs://mycluster/spark/spark02/directory/")
14/07/19 21:15:23 INFO MemoryStore: ensureFreeSpace(138763) called with curMem=0, maxMem=309225062
14/07/19 21:15:23 INFO MemoryStore: Block broadcast_0 stored as values to memory (estimated size 135.5 KB, free 294.8 MB)
rdd1: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12

scala> rdd1.toDebugString
java.lang.IllegalArgumentException: java.net.UnknownHostException: mycluster
   at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:418)
   at org.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:231)
   at org.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:139)
   at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:510)
   at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:453)
   at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:136)
   at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2433)
   at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:88)
   at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2467)
   at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2449)
   at org.apache.hadoop.