hadoop-2.2.0全分布集群安装与配置
------接上篇Hadoop-2.2.0伪分布配置点击打开链接
前提摘要:
我在上篇博客中详细说明了如何配置hadoop-2.2.0伪分布模式配置,包括虚拟机安装、jdk安装、hadoop伪分布安装等。配置完单机、伪分布模式,终于要来配置hadoop分布式集群了,这篇文章将详细描述hadoop-2.2.0伪分布集群配置,当然是在前篇博客的基础上。
配置说明:
我这里配置的是两个节点的集群,配置多个节点的集群可以类推。两个节点的IP地址如下:
1、条件配置
这里所说的条件配置主要包括网卡配置、ssh配置(集群之间通信需要,免密码登入)、hosts配置。
1.1 网络配置
Ubuntu一般我们都是使用的自动IP分配,虚拟机都会为系统自动分配IP地址,但是集群之间的通信都是通过IP访问了,因此各机器之间的IP地址需要在文件中显示的说明。这样自动IP分配会使得我们每次都要重新配置文件中的IP地址,为了方便我们将机器的IP设置为静态IP地址。
静态IP地址设置如下:
首先查看虚拟机为系统分配的IP地址范围、网关、子网掩码、dns服务等。如下图:
打开虚拟网络编辑器
选择VMnet8后,编辑NAT设置,即可查看虚拟机分配的网关等。
点击DHCP设置,查看虚拟机分配的IP范围
接下来伪虚拟机配置静态IP(这里是master的,node1可将IP地址改为node1的IP地址)
编辑interfaces文件,sudo gedit /etc/network/interfaces
修改后需要重启网卡,配置文件才会生效,命令如下:
sudo /etc/init.d/networking restart
自此静态IP配置完成
ping www.baidu.com
ping通,说明IP配置成功。
1.2 hosts文件配置
编辑hosts文件,sudo gedit /etc/hosts每个节点该文件时相同的,为了方便节点之间的通信
1.3 ssh免登入,上一篇博客中我已经讲过了,这里就不赘述了。
2、文件配置
2.1 slaves文件配置
编辑slaves文件,sudo gedit /home/hduser/hadoop-2.2.0/etc/hadoop/slaves
2.2 配置hadoop-env.sh,配置见上篇博文
2.3 配置namenode,修改sudo gedit /home/hduser/hadoop-2.2.0/etc/hadoop/core-site.xml
2.4 配置sudo gedit /home/hduser/hadoop-2.2.0/etc/hadoop/hdfs-site.xml
2.5 配置sudo gedit /home/hduser/hadoop-2.2.0/etc/hadoop/mapred-site.xml
3 移植
以上配置在master上配置,然后将配置好的hadoop目录直接拷贝到其余各节点,注意保证各节点hadoop运行用户、hadoop存放位置的一致,不要忘记在各机上设置hosts文件;这里我是在此虚拟机上克隆了另一个虚拟机,当然内存足够的情况下。
4 运行
在master上启动hadoop即可
./start-all.sh
使用jps在master上查看进程
使用jps在node1上查看进程
如果启动如上所示,说明集群配置成功,接下来进行一些测试
5 测试
运行词频统计的例子
过程看截图:
使用命令hdfs dfs -mkdir /input在hdfs上创建input目录
将本地的文件上传到input目录中
执行程序
查看结果
在浏览器中输入http://192.168.137.131:50070可以查看hdfs系统
点击Live Datanodes
6 结语
好啦,自此hadoop集群配置完成了,赶快在实现集群的功能吧!
自此,hadoop-2.2.0伪分布模式就配置成功了,接下来的一片博客里我将介绍,hadoop-2.2.0全分布集群配置,将的也很详细哦~
(我是刘立洲,我为自己带盐,IT屌丝~)