1.环境配置
配置集群上每台机器的host
vi /etc/hosts
加上
10.0.0.16 master
10.0.0.198 slave01
在集群中所有机器上创建spark账户
sudo useradd -m spark -s /bin/bash
设置密码(为了好记,密码也设置为spark)
sudo passwd spark
设置root权限
sudo adduser spark sudo
退出用spark用户进入,生成公钥(用于集群master免登陆启动slave)
cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys
把master的公钥传给slave01
scp ~/.ssh/id_rsa.pub spark@slave01:/home/spark/
在slave01把传来的公钥写入
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
2、安装
将hadoop-2.7.3.tar.gz、scala-2.12.0.tgz、spark-2.0.1-bin-hadoop2.7.tgz拷贝到/usr/local/apps
解压他们
cd /usr/locala/apps/
tar -xzvf hadoop-2.7.3.tar.gz
tar -xzvf scala-2.12.0.tgz
tar -xzvf spark-2.0.1-bin-hadoop2.7.tgz
创建软链接,方便以后版本更变
ln -s hadoop-2.7.3 hadoop
ln -s scala-2.12.0 scala
ln -s spark-2.0.1-bin-hadoop2.7 spark
设置环境变量
sudo vim /etc/profile
export HADOOP_HOME=/usr/local/apps/hadoop
export PATH=
HADOOPHOME/sbin:
HADOOP_HOME/bin:
PATHexportSCALAHOME=/usr/local/apps/scalaexportPATH=
SCALA_HOME/bin:
PATHexportSPARKHOME=/usr/local/apps/sparkexportPATH=
SPARK_HOME/bin:$PATH
vim编辑器基础操作:光标定位到要修改的地方之后,按i键,进入插入模式,修改完之后,按Esc键退出插入模式,在按Shift+: 输入wq!保存退出
使修改的环境变量立即生效
source /etc/profile
3、hadoop配置
修改/usr/local/apps/hadoop-2.7.3/etc/hadoop的etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/apps/jdk
修改/usr/local/apps/hadoop-2.7.3/etc/hadoop的core-site.xml
hadoop.tmp.dir
file:/usr/local/apps/hadoop/tmp
fs.defaultFS
hdfs://master:9000
修改/usr/local/apps/hadoop-2.7.3/etc/hadoop的hdfs-site.xml
dfs.replication
1
dfs.namenode.name.dir
file:/usr/local/apps/hadoop/hdfs/name
dfs.datanode.data.dir
file:/usr/local/apps/hadoop/hdfs/data
修改/usr/local/apps/hadoop-2.7.3/etc/hadoop/slaves
添加
master
slave01
格式化hdfs
$HADOOP_HOME/bin/hdfs namenode -format
启动hdfs
$HADOOP_HOME/sbin/start-dfs.sh
在master上输入jps,有进程
SecondaryNameNode
NameNode
DataNode
在slave上输入jps,有进程
DataNode
4、配置spark
把/usr/local/apps/spark-2.0.1-bin-hadoop2.7/conf下的spark-env.sh.template重命名为spark-env.sh,并在文件中添加如下内容
export JAVA_HOME=/usr/local/apps/jdk
export SCALA_HOME=/usr/local/apps/scala
export SPARK_MASTER_IP=10.0.0.16
export HADOOP_HOME=/usr/local/apps/hadoop
export HADOOP_CONF_DIR=/usr/local/apps/hadoop/etc/Hadoop
把/usr/local/apps/spark-2.0.1-bin-hadoop2.7/conf下的slaves.template重命名为slaves,并在文件中添加如下内容
master
slave01
启动spark
$SPARK_HOME/sbin/start-all.sh
在master上输入jps,有进程
Master
Worker
在slave上输入jps,有进程
Worker
打开网页http://http://10.0.0.16:8080/
备注
以上配置,只用了hadoop的hdps,若用用hadoop的yarn模式,还要配置yarn。
参考资料
http://www.cnblogs.com/onetwo/p/5424377.html
https://my.oschina.net/jackieyeah/blog/657750
http://xxniao.iteye.com/blog/2323414
http://blog.csdn.net/silentwolfyh/article/details/51559062
http://blog.csdn.net/dai451954706/article/details/46966165