在阿里云上搭建spark分布式环境。

最新推荐文章于 2024-07-13 16:26:36 发布

i_am_will

最新推荐文章于 2024-07-13 16:26:36 发布

阅读量2.9k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_36801710/article/details/79306520

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考资料：（我觉的参考资料比我的更重要，所以它在前面。）

http://www.mak-blog.com/spark-on-yarn-setup-multinode.html

张丹阳. 阿里云实现Spark的分布式计算

https://www.cnblogs.com/freeweb/p/5773619.html

三台EMC服务器，ubentu系统。下载一个putty，做远程连接。

第一步：修改/etc/hostname master slave1 slave2

修改/etc/hosts 格式：IP hostname

第二步：做ssh免密登陆。

# sudo apt-get install openssh-server
# sudo apt-get update
# ssh-keygen -t rsa -P ""   //提示选择目录时，按 Enter 键，那么 id_rsa 和 id_rsa.pub 会生成到 root/.ssh 目录下。在根目录下使用 ls -a 命令可以看到该目录。

在三台服务器上执行：cd root/.ssh，cat id_rsa.pub>>authorized_keys，将 id_rsa.pub 追加到 authorized_keys。

将 slave1 和 slave2 的 id_rsa.pub 拷贝到 master（传输文件可用 scp），并将其内容追加到 master 的 root/.ssh/authorized_keys 中。同理，处理另外俩个机子。

可以通过阿里云的EMC控制台，执行上面的操作，很方便。也可以自己粘贴复制 id_rsa.pub到 authorized_keys

ssh master

ssh slave1

ssh slave2

验证成功，是不需要输入密码的。如果不成功，可能是.ssh文件夹和 authorized_keys的权限问题。

chmod 700 /root/.ssh

chmod 600 /root/.ssh/authorized_keys

第三步：安装jdk和Scala

这里尽量避免使用apt-get install的命令安装。因为如果这样，JAVA_HOME和JRE_HOME,配置起来比较麻烦。

可以看我的这篇文档：http://blog.csdn.net/qq_36801710/article/details/79306319

wget url

安装jdk:

# cd /usr/local/ java
# sudo tar xzvf jdk-8u77-linux-x64. tar .gz

在/etc/profile 或者/~/bash.bashrc，配置jdk的环境变量。

export JAVA_HOME=/usr/local/java/jdk1. 8 .0_77
export JRE_HOME =/usr/local/java/jdk1. 8 .0_77/ jre
export CLASSPATH =.:$JAVA_HOME/lib:$JRE_HOME/ lib:$CLASSPATH
export PATH =$JAVA_HOME/bin:$JRE_HOME/ bin:$JAVA_HOME:$PATH
export JDK_HOME =/usr/local/java/jdk1. 8 .0_77

安装scala:

# tar xvzf scala- 2.11 . 8 .tgz

# ln -s scala- 2.11 . 8 scala

配置Scala的环境变量。

export SCALA_HOME=/usr/local/ scala

export PATH =$PATH:$SCALA_HOME/bin

最后，修改了的配置文件，source filename ，保存一下。

第四步：安装spark

下载，解压。

在配置文件中配置：

export SPARK_HOME=/usr/local/ spark
export PATH =$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

对spark中的文件进行配置：