初学spark 的时候在 spark shell窗口类里面操作以下代码对hdfs 的文件进行操作的时候会出现找不到文件的错误
val lineRDD= sc.textFile("/person.txt").map(_.split(" "))
【此处不配图了】
原因是spark 没有配置hadoop 相关的参数。
在spark-env.sh 中添加HADOOP_CONF_DIR配置,指明了hadoop的配置文件(所那个文件夹, 一般在hadoop安装目录下的etc/hadoop中 ),默认它就是使用的hdfs的文件系统, 使用其他文件系统的时候就要声明好.
export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop
要使用本地文件系统的时候要配置路径 file:///本地路径
另外使用前还要注意一定要启动hdfs 才行。