官方解释:https://spark.apache.org/docs/latest/hadoop-provided.html
从 Spark 1.4 版本开始,该项目打包了“Hadoop free”版本,让您可以更轻松地将单个 Spark 二进制文件连接到任何 Hadoop 版本。要使用这些构建,您需要修改 SPARK_DIST_CLASSPATH 以包含 Hadoop 的包 jar。最方便的方法是在 conf/spark-env.sh 中添加一个条目。
现在以hadoop这个命令已经在环境变量中存在的情况为例,conf / spark-env.sh配置文件里需要增加这么一句:
export SPARK_DIST_CLASSPATH=$(hadoop classpath)