Hadoop与Spark集群部署-CSDN博客

本文链接：https://blog.csdn.net/best789248/article/details/53233441

1.环境配置

配置集群上每台机器的host

vi /etc/hosts
加上

10.0.0.16 master
10.0.0.198 slave01

在集群中所有机器上创建spark账户

sudo useradd -m spark -s /bin/bash
设置密码（为了好记，密码也设置为spark）

sudo passwd spark
设置root权限

sudo adduser spark sudo

退出用spark用户进入，生成公钥（用于集群master免登陆启动slave）

cd ~/.ssh/ # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys
把master的公钥传给slave01

scp ~/.ssh/id_rsa.pub spark@slave01:/home/spark/
在slave01把传来的公钥写入

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

2、安装

将hadoop-2.7.3.tar.gz、scala-2.12.0.tgz、spark-2.0.1-bin-hadoop2.7.tgz拷贝到/usr/local/apps

解压他们

cd /usr/locala/apps/
tar -xzvf hadoop-2.7.3.tar.gz
tar -xzvf scala-2.12.0.tgz
tar -xzvf spark-2.0.1-bin-hadoop2.7.tgz
创建软链接，方便以后版本更变

ln -s hadoop-2.7.3 hadoop
ln -s scala-2.12.0 scala
ln -s spark-2.0.1-bin-hadoop2.7 spark
设置环境变量

sudo vim /etc/profile
export HADOOP_HOME=/usr/local/apps/hadoop
export PATH= $HADOOP_HOME/sbin:$ HADOOP_HOME/bin: $PATH export SCALA_HOME=/usr/local/apps/scala export PATH=$ SCALA_HOME/bin: $PATH export SPARK_HOME=/usr/local/apps/spark export PATH=$ SPARK_HOME/bin:$PATH

vim编辑器基础操作：光标定位到要修改的地方之后，按i键，进入插入模式，修改完之后，按Esc键退出插入模式，在按Shift+：输入wq！保存退出

使修改的环境变量立即生效

source /etc/profile

3、hadoop配置

修改/usr/local/apps/hadoop-2.7.3/etc/hadoop的etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/local/apps/jdk

修改/usr/local/apps/hadoop-2.7.3/etc/hadoop的core-site.xml

hadoop.tmp.dir
file:/usr/local/apps/hadoop/tmp

fs.defaultFS
hdfs://master:9000

修改/usr/local/apps/hadoop-2.7.3/etc/hadoop的hdfs-site.xml

dfs.replication
1

dfs.namenode.name.dir
file:/usr/local/apps/hadoop/hdfs/name

dfs.datanode.data.dir
file:/usr/local/apps/hadoop/hdfs/data

修改/usr/local/apps/hadoop-2.7.3/etc/hadoop/slaves

添加

master
slave01

格式化hdfs

$HADOOP_HOME/bin/hdfs namenode -format
启动hdfs

$HADOOP_HOME/sbin/start-dfs.sh

在master上输入jps，有进程

SecondaryNameNode
NameNode
DataNode

在slave上输入jps，有进程

DataNode

打开网页http://10.0.0.16:50070/