在阿里云ECS服务器的Ubuntu中安装Spark
安装Spark
- 安装spark
- 从官网下载安装包并解压。
- 修改Spark配置文件
$ cd /usr/local/spark
$ cp cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh文件,在第一行添加: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
。这样Spark就可以从HDFS中读写数据。
测试Spark能否正常访问Hadoop中的HDFS
- 启动Spark-shell交互式环境
# cd /usr/local/spark
# ./bin/spark-shell
- 启动HDFS
# cd /usr/local/hadoop
# ./sbin/start-dfs.sh
执行 jps
查看是否启动成功:
[image:A0A31292-1FC3-4160-9498-09C38F57741E-15881-0000B042830E5150/A3111CEF-264C-436A-BFD9-396C4B9D3F50.png]
如果看到了至少上述4个进程,则表示HDFS启动成功。
进入Spark-shell交互式环境后,执行
val line = sc.textFile("/user/meow/word.txt")
println(line.count())
可以输出word.txt文件中的文本行数。
注: 1. textFile()
函数的参数是HDFS里面的相对路径。
2. 使用公网IP、私网IP和本地IP都会无法访问。
3. 如果使用Intellij IDEA来访问HDFS,则需要使用服务器的私网IP。