项目场景:Spark读取集群文件
记录一下改错经过
Hadoop2.7.7+spark3.0.1+scala2.12.10
问题描述
提示:这与里描述项目中遇到的问题:
运行报错
APP 中接收数据代码:
val df =spark.read.format("csv").option("header","true").option("mode","DROPMALFORMED").load("hdfs://master:9083/user/hadoop/titanic.csv")
原因分析:
提示:这里填写问题的分析:
hdfs路径写错了
进入spark查看相关配置(下面是spark-defaults.conf)
/usr/local/spark-yarn/conf
目录
解决
解决方案:
val df =spark.read.format("csv").option("header","true").option("mode","DROPMALFORMED").load("hdfs://master:9083/user/hadoop/titanic.csv")
将hdfs路径修改
val df =spark.read.format("csv").option("header","true").option("mode","DROPMALFORMED").load("hdfs://namenode:8021/user/hadoop/titanic.csv")
发现报了一个新错误
意思是找不到主机名为namenode的主机,应该是配置文件出错了 ,再进入spark-defaults.conf
我将namenode改为master或者root之后发现都不行,又出现了新错误,
拒绝连接
浏览众多文章才发现是看hadoop下的core-site.xml文件,前面被其他教改错的文章误导了
之后就成功了
如有错误欢迎纠正,共同讨论