Spark2.1 +Hadoop2.6 搭建分布式集群
本篇博客由博主Ashely个人原创,如有转载,请注明出处:
目录
实验环境
1.1 服务器上启动三台虚拟机
ubuntu@vm06 192.168.110.106 master
ubuntu@vm05 192.168.110.105 slave1
ubuntu@vm04 192.168.110.104 slave2
1.2 软件版本:
Hadoop2.6.5 + Spark2.1.0 + Scala2.1.6
总体流程
1. 1 修改主机名(hosts)
--> 所有节点都执行
2. 2 安装基础环境(jdk和scala)
--> 所有节点都执行
3. 3 配置ssh无密码访问
--> master -> slave1、slave2 ; slave1、slave2 -> master
4. 4 搭建hadoop分布式集群
--> master先执行,再scp到slave1、slave2; 还要改些配置
5. 5 搭建spark分布式集群
--> master先执行,再scp到slave1、slave2; 还要改些配置
一. 修改主机名和hosts
1.1 更改主机名
ubuntu@vm06:~$ sudo vim /etc/hostname
改成master //其他两个分别改为slave1 和slave2
注意:本文的主机名全部以小写字母开头,后文在配置环境时注意不要误用大写!
1.2 修改hosts
ubuntu@vm06:~# sudo vim /etc/hosts
//将原文件(127.0.0.0 localhost)下面添加以下信息:
192.168.110.106 master
192.168.110.105 slave1
192.168.110.104 slave2
ubuntu@vm06:~# sudo source /etc/hosts
//退出后重启虚拟机
ubuntu@vm06:~# sudo reboot
//分别对集群中的所有节点进行以上相似的设置
二. 安装基础环境(Java和scala)
-对所有节点安装java和scala
2.1 Java环境搭建
1)下载jdk-1.8并解压到 /usr/local
ubuntu@master:~$ sudo wget .............
ubuntu@master:~$ sudo tar -zxvf jdk-8u152-linux-x64.tar.gz -C /usr/local/
2)添加java环境变量,在/etc/profile中添加:
ubuntu@master:~$ sudo vim /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_152
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/rt.jar
export JAVA_HOME PATH CLASSPATH
3)保存后刷新配置
ubuntu@master:~$ source /etc/profile
2.2 scala环境搭建
1)下载scala安装包scala-2.10.6.tgz安装到 /usr/lib
ubuntu@master:~$ sudo tar -zxvf scala-2.10.6.tgz -C /usr/lib/
2)添加Scala环境变量,在/etc/profile中添加:
ubuntu@master:~# sudo vim /etc/profile
export SCALA_HOME=/usr/lib/scala-2.10.6
export PATH=$SCALA_HOME/bin:$PATH
3)保存后刷新
ubuntu@master:~# source /etc/profile
三. ssh无密码验证配置
-对所有节点安装