Ubuntu 16.04安装Spark

在阿里云ECS服务器的Ubuntu中安装Spark

安装Spark
  • 安装spark
  • 从官网下载安装包并解压。
  • 修改Spark配置文件
$ cd /usr/local/spark
$ cp cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件,在第一行添加: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) 。这样Spark就可以从HDFS中读写数据。

测试Spark能否正常访问Hadoop中的HDFS
  • 启动Spark-shell交互式环境
# cd /usr/local/spark
# ./bin/spark-shell
  • 启动HDFS
# cd /usr/local/hadoop
# ./sbin/start-dfs.sh

执行 jps 查看是否启动成功:

[image:A0A31292-1FC3-4160-9498-09C38F57741E-15881-0000B042830E5150/A3111CEF-264C-436A-BFD9-396C4B9D3F50.png]

如果看到了至少上述4个进程,则表示HDFS启动成功。
进入Spark-shell交互式环境后,执行

val line = sc.textFile("/user/meow/word.txt")
println(line.count())

可以输出word.txt文件中的文本行数。
注: 1. textFile() 函数的参数是HDFS里面的相对路径。
2. 使用公网IP、私网IP和本地IP都会无法访问。
3. 如果使用Intellij IDEA来访问HDFS,则需要使用服务器的私网IP。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是在Ubuntu 16.04上伪分布式安装Hadoop和Spark的步骤: 1. 安装Java 在终端中输入以下命令: ``` sudo apt-get update sudo apt-get install openjdk-8-jdk ``` 2. 配置SSH Hadoop和Spark需要使用SSH进行节点之间的通信,因此需要先配置好SSH。在终端中输入以下命令: ``` sudo apt-get install openssh-server ssh-keygen -t rsa -P "" cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ``` 3. 下载Hadoop 在终端中输入以下命令: ``` wget https://downloads.apache.org/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz tar -xzvf hadoop-2.7.7.tar.gz ``` 4. 配置Hadoop 进入Hadoop的安装目录,编辑`etc/hadoop/hadoop-env.sh`文件,将JAVA_HOME设置为Java的安装路径: ``` export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ``` 然后编辑`etc/hadoop/core-site.xml`文件,加入以下内容: ``` <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` 接着编辑`etc/hadoop/hdfs-site.xml`文件,加入以下内容: ``` <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` 最后编辑`etc/hadoop/mapred-site.xml.template`文件,将`<value>localhost:10020</value>`替换为`<value>localhost:9001</value>`。 5. 启动Hadoop 在终端中输入以下命令启动Hadoop: ``` bin/hadoop namenode -format sbin/start-all.sh ``` 6. 下载Spark 在终端中输入以下命令: ``` wget https://downloads.apache.org/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz tar -xzvf spark-2.4.7-bin-hadoop2.7.tgz ``` 7. 配置Spark 进入Spark安装目录,编辑`conf/spark-env.sh`文件,将JAVA_HOME设置为Java的安装路径: ``` export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ``` 然后复制一份模板文件: ``` cp conf/spark-defaults.conf.template conf/spark-defaults.conf ``` 编辑`conf/spark-defaults.conf`文件,加入以下内容: ``` spark.master spark://localhost:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs://localhost:9000/spark-logs spark.executor.memory 1g ``` 8. 启动Spark 在终端中输入以下命令启动Spark: ``` sbin/start-all.sh ``` 现在你已经成功在Ubuntu 16.04上伪分布式安装了Hadoop和Spark

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值