导语:Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。因为我的电脑带不动三个虚拟机,所以没办法搭建三个节点的完全分布式集群,所以本文主要记录Hadoop伪分布式测试集群的搭建过程!
基于centos7+Hadoop2.7.5
一、安装虚拟机,以及配置centos7镜像,基本步骤省略,主要介绍相关网络配置
1、虚拟机编辑网络为以下模式
VMnet8IP地址:192.168.83.2
2、进入虚拟机,ip addr查看分配的ip地址
3、windows主机ping该网络
4、修改主机名为node01
5、修改域名解析映射文件使得后续可以直接通过主机名访问,sudo vi /etc/hosts
6、ping一波,测试是否生效
linux主机的配置已经全部完成,接下啦借助xshell连接至linux,借助winSCP上传文件至Linux环境中
二、安装JDK,配置环境变量
1、上传jdk至/usr/java目录下,如没有创建目录
2、配置环境变量:
3、source使其生效
4、查看jdk是否安装成功
三、安装Hadoop
1、下载hadoop-2.7.5,并上传至以下安装目录:/usr/local
2、配置hadoop-env.sh
3、配置core-site.xml:
vi core-site.xml,在configuration中添加各配置项
- 配置默认采用的文件系统。----(由于存储层和运算层松耦合,要为它们指定使用hadoop原生的分布式文件系统hdfs。value填入的是uri,参数是
分布式集群中主节点的地址 : 指定端口号)
- 配置hadoop的公共目录-----(指定hadoop进程运行中产生的数据存放的工作目录,NameNode、DataNode等就在本地工作目录下建子目录存放数据。但事实上在生产系统里,NameNode、DataNode等进程都应单独配置目录,而且配置的应该是磁盘挂载点,以方便挂载更多的磁盘扩展容量)
4、配置 hdfs-site.xml
vi hdfs-site.xml,配置hdfs的副本数---(客户端将文件存到hdfs的时候,会存放在多个副本。value一般指定3,但因为搭建的是伪分布式就只有一台机器,所以只能写1。)
5、配置 mapred-site.xml
vi mapred-site.xml---指定MapReduce程序应该放在哪个资源调度集群上运行。若不指定为yarn,那么MapReduce程序就只会在本地运行而非在整个集群中运行。
6、配置 yarn-site.xml,vi yarn-site.xml
1)指定yarn集群中的老大(就是本机)
2)配置yarn集群中的重节点,指定map产生的中间结果传递给reduce采用的机制是shuffle
7、配置环境变量PATH
8、设置防火墙
9、配置ssh免密登录
1)创建公钥、私钥,输入yes加回车,这里忘输入了,后面也可以输入yes
2)创建authorized_keys文件并修改权限为600
3)将公钥追加到authorized中
4)测试免密登录
四、启动Hadoop
1、初始化hadoop
2、测试是否启动成功
五、从windows环境进入hdfs和yarn集群相对应的web界面
1、HDFS:http://ip:50070
2、YARN:http://ip:8088