1.环境配置
配置集群上每台机器的host
vi /etc/hosts
加上
10.0.0.16 master
10.0.0.198 slave01
在集群中所有机器上创建spark账户
sudo useradd -m spark -s /bin/bash
设置密码(为了好记,密码也设置为spark)
sudo passwd spark
设置root权限
sudo adduser spark sudo
退出用spark用户进入,生成公钥(用于集群master免登陆启动slave)
cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys
把master的公钥传给slave01
scp ~/.ssh/id_rsa.pub spark@slave01:/home/spark/
在slave01把传来的公钥写入
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
2、安装
将hadoop-2.7.3.tar.gz、scala-2.12.0.tgz、spark-2.0.1-bin-hadoop2.7.tgz拷贝到/usr/local/apps
解压他们
cd /usr/locala/apps/
tar -xzvf hadoop-2.7.3.tar.gz
tar -xzvf scala-2.12.0.tgz
tar -xzvf spark-2.0.1-bin-hadoop2.7.tgz
创建软链接,方便以后版本更变
ln -s hadoop-2.7.3 hadoop
ln -s scala-2.12.0 scala
ln -s spark-2.0.1-bin-hadoop2.7 spark
设置环境变量
sudo vim /etc/profile
export HADOOP_HOME=/usr/local/apps/hadoop
export PATH= HADOOPHOME/sbin: HADOOP_HOME/bin: