之前我们都了解了什么是Hadoop生态圈以及大数据是什么?如果有新来的小伙伴感兴趣的话可以在我的博客中查看相关介绍。
今天我们就来进行实践操作----也就是我们的伪分布式框架搭建
要安装Hadoop生态圈首先你的虚拟机中要有jdk,而且你的虚拟机必须保证可以上网可以被外部连接,这里我一一介绍。
一、网络配置
首先按照平时安装linux系统那样安装系统,在安装完之后
在这个位置中
在这里我们选择镜像文件,我使用的是不带可视化界面的,这个因人而异,哪个都可以,只不过是运行速度快慢的事,这里就不强调了。
我们进入到虚拟机登录后,进行网络配置
1.vi /etc/hosts 进入这个文件后配置自己的ip段和主机名字
2.vi /etc/sysconfig/network 进行主机名字配置
3.vi /etc/sysconfig/network-scripts/ifcfg-eth0 进行网络配置
这里IPADDR就是你的IP地址,GATEWAY就是你的网关,是可以在虚拟机首页—编辑—虚拟机网络编辑–VMnet8—NAT设置中查看的,NETMASK就是子网掩码,DNS1也是你的网关,DNS2就是相同的数组成的ip。
配置完这些,我们还需要检查一下防火墙是否是开启状态,如果是开启状态就把它关闭service iptables stop关闭防火墙、chkconfig iptables off 永久关闭防火墙(关闭后要重启才能生效),这些都做完之后我们可以ping www.baidu.com 进行检查网络是否运行成功。
注:如果是克隆下来的虚拟机需要删除一个文件rm -rf /etc/udev/rules.d/70-persistent-net.rules 删除网卡信息
网络没问题了接下来我们就要配置jdk了
2.JDK配置
配置之前首先我们要在电脑上有一个JDK的安装包
先使用命令yum install lrzsz -y,安装这个就可以使用rz命令去安装JDK
rz 选择桌面的JDK安装包进行安装 tar -zxvf JDK安装包的全名
等待它解压完成,当然我们也可以使用Xftp6来吧jdk拖入linux进行解压
安装的时候最好放置在一个自己能记住的文件中,在jdk环境配置文件中配置环境变量
export JAVA_HOME=/opt/software/jdk1.8.0_121
export PATH=
P
A
T
H
:
PATH:
PATH:JAVA_HOME/bin
这些做完之后就需要执行source /etc/profile让之前我们配置的环境变量生效
java -version 是检验jdk是否安装完成
二、Hadoop生态圈搭建
Hadoop是需要在jdk环境下运行的,就像jdk的上传一样运行tar -zxvf hadoop安装包名进行解压
当你进入hadoop的安装环境cd hadoop-2.6.5/etc/hadoop/ 可以看到有两个文件bin ----系统的操作命令(文件的增删改查)、sbin----系统的管理命令(集群的启动、关闭)
接下来我们进入profile文件中 cd etc/profile/这里要注意的是,在前面不能加‘ / ’, 这里我们需要配置几个文件信息
1、slaves—节点(DN)
2、hdfs-site.xml
dfs.replication //设置备份个数
1
<property>
<name>dfs.namenode.secondary.http-address</name> //secondaryNamenode
<value>node01:50090</value>
</property>
3、core-site.xml
<property>
<name>fs.defaultFS</name> //namenode
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> //namenode启动后产生的信息
<value>/var/abc/hadoop/local</value>
</property>
4、
把*-env.sh的文件内部所有的java路径改为绝对路径
5、格式化
进入 cd /opt/software/hadoop-2.6.5/bin/
执行./hdfs namenode -format-----让所有文件生效
6、启动命令
切换到 cd /opt/software/hadoop/sbin----执行./start-dfs.sh
7、配置hadoop的环境变量
export HADOOP_HOME=/opt/software/hadoop-2.6.5
export PATH=
P
A
T
H
:
PATH:
PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
完全分布式配置
1、配置多个节点的网络映射
192.168.79.123 node01
192.168.79.124 node02
192.168.79.125 node03
192.168.79.126 node04
2、多节点之间免密配置
(1)配置免密登录 node01->node01
在每一个节点上运行ssh-keygen -t rsa 产生他们自己的密钥
在node01执行
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node02
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node03
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node04
注:将某一个节点的文件发送到其他的节点上
scp /etc/hosts root@192.168.79.124:/etc
3、配置slaves到多个节点上-----设置的是DN节点的启动位置
4、修改core-site.xml和hdfs-site.xml
5、将修改完成后的文件发送到其他的节点上
scp -r hadoop-cluster root@node02:/opt/software
6、格式化,让配置文件生效
进入 cd /opt/software/hadoop-2.6.5/bin/
执行./hdfs namenode -format-----让所有文件生效
7、启动集群
只在Namenode所在节点上启动集群即可
切换到 cd /opt/software/hadoop/sbin----执行./start-dfs.sh
以上就是安装过程,在安装的过程中我也遇到了很多的问题,下面分享给大家,在创建集群时一定要保证你所有的虚拟机jdk都能运行,如果没有一定不会成功,在启动集群后一定要使用jps命令查看运行的命令,也就是Namenode和Datanode是否运行成功。如果你的浏览器打不开Hadoop页面,就需要在你的的C盘>>>Windows>>>system32>>>drivers>>>etc>>>hosts,编辑这个文件,把需要放的映射路径放进去例:192.168.32.189 node01 ,这样就会连接上了。