大数据学之路----Hadoop生态圈伪分布式框架搭建

十五亿程序员的希望

于 2019-06-12 22:36:09 发布

阅读量235

点赞数

本文链接：https://blog.csdn.net/qq_43713258/article/details/91545299

版权

之前我们都了解了什么是Hadoop生态圈以及大数据是什么？如果有新来的小伙伴感兴趣的话可以在我的博客中查看相关介绍。
今天我们就来进行实践操作----也就是我们的伪分布式框架搭建
要安装Hadoop生态圈首先你的虚拟机中要有jdk，而且你的虚拟机必须保证可以上网可以被外部连接，这里我一一介绍。
一、网络配置
首先按照平时安装linux系统那样安装系统，在安装完之后在这里插入图片描述
在这个位置中

在这里我们选择镜像文件，我使用的是不带可视化界面的，这个因人而异，哪个都可以，只不过是运行速度快慢的事，这里就不强调了。
我们进入到虚拟机登录后，进行网络配置
1.vi /etc/hosts 进入这个文件后配置自己的ip段和主机名字
在这里插入图片描述
2.vi /etc/sysconfig/network 进行主机名字配置

3.vi /etc/sysconfig/network-scripts/ifcfg-eth0 进行网络配置

这里IPADDR就是你的IP地址，GATEWAY就是你的网关，是可以在虚拟机首页—编辑—虚拟机网络编辑–VMnet8—NAT设置中查看的，NETMASK就是子网掩码，DNS1也是你的网关，DNS2就是相同的数组成的ip。

配置完这些，我们还需要检查一下防火墙是否是开启状态，如果是开启状态就把它关闭service iptables stop关闭防火墙、chkconfig iptables off 永久关闭防火墙（关闭后要重启才能生效），这些都做完之后我们可以ping www.baidu.com 进行检查网络是否运行成功。
注：如果是克隆下来的虚拟机需要删除一个文件rm -rf /etc/udev/rules.d/70-persistent-net.rules 删除网卡信息

网络没问题了接下来我们就要配置jdk了
2.JDK配置
配置之前首先我们要在电脑上有一个JDK的安装包
先使用命令yum install lrzsz -y,安装这个就可以使用rz命令去安装JDK
rz 选择桌面的JDK安装包进行安装 tar -zxvf JDK安装包的全名
等待它解压完成，当然我们也可以使用Xftp6来吧jdk拖入linux进行解压
安装的时候最好放置在一个自己能记住的文件中，在jdk环境配置文件中配置环境变量
export JAVA_HOME=/opt/software/jdk1.8.0_121
export PATH= $P A T H :$ JAVA_HOME/bin
这些做完之后就需要执行source /etc/profile让之前我们配置的环境变量生效
java -version 是检验jdk是否安装完成

二、Hadoop生态圈搭建
Hadoop是需要在jdk环境下运行的，就像jdk的上传一样运行tar -zxvf hadoop安装包名进行解压
当你进入hadoop的安装环境cd hadoop-2.6.5/etc/hadoop/ 可以看到有两个文件bin ----系统的操作命令（文件的增删改查）、sbin----系统的管理命令（集群的启动、关闭）
接下来我们进入profile文件中 cd etc/profile/这里要注意的是，在前面不能加‘ / ’，这里我们需要配置几个文件信息
1、slaves—节点（DN）
2、hdfs-site.xml

dfs.replication //设置备份个数
1

	<property>     
		<name>dfs.namenode.secondary.http-address</name>   //secondaryNamenode
		<value>node01:50090</value>
	</property>
	3、core-site.xml
	<property>
		<name>fs.defaultFS</name>            //namenode
		<value>hdfs://node01:9000</value>    
	</property>
	<property>
		<name>hadoop.tmp.dir</name>          //namenode启动后产生的信息
		<value>/var/abc/hadoop/local</value>
	</property>
	4、
		把*-env.sh的文件内部所有的java路径改为绝对路径

5、格式化
进入 cd /opt/software/hadoop-2.6.5/bin/

执行./hdfs namenode -format-----让所有文件生效

6、启动命令
切换到 cd /opt/software/hadoop/sbin----执行./start-dfs.sh
7、配置hadoop的环境变量
export HADOOP_HOME=/opt/software/hadoop-2.6.5
export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin

完全分布式配置

1、配置多个节点的网络映射
192.168.79.123 node01
192.168.79.124 node02
192.168.79.125 node03
192.168.79.126 node04
2、多节点之间免密配置
(1)配置免密登录 node01->node01
在每一个节点上运行ssh-keygen -t rsa 产生他们自己的密钥
在node01执行
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node02
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node03
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node04

	注：将某一个节点的文件发送到其他的节点上
	scp /etc/hosts root@192.168.79.124:/etc

3、配置slaves到多个节点上-----设置的是DN节点的启动位置
4、修改core-site.xml和hdfs-site.xml
5、将修改完成后的文件发送到其他的节点上
scp -r hadoop-cluster root@node02:/opt/software
6、格式化，让配置文件生效
进入 cd /opt/software/hadoop-2.6.5/bin/

执行./hdfs namenode -format-----让所有文件生效

7、启动集群
只在Namenode所在节点上启动集群即可
切换到 cd /opt/software/hadoop/sbin----执行./start-dfs.sh

以上就是安装过程，在安装的过程中我也遇到了很多的问题，下面分享给大家，在创建集群时一定要保证你所有的虚拟机jdk都能运行，如果没有一定不会成功，在启动集群后一定要使用jps命令查看运行的命令，也就是Namenode和Datanode是否运行成功。如果你的浏览器打不开Hadoop页面，就需要在你的的C盘>>>Windows>>>system32>>>drivers>>>etc>>>hosts,编辑这个文件，把需要放的映射路径放进去例：192.168.32.189 node01 ,这样就会连接上了。