大数据学习01_Hadoop: Hadoop集群的构建
Hadoop开发环境搭建
克隆虚拟机
-
设置关闭虚拟机DHCP: 找到虚拟机的
虚拟网络编辑器
,关闭其DHCP服务,在NAT设置
中检查其网关
要更改
VMnet8
网卡,只有这个网卡负责NAT模式在虚拟机中默认使用
eth0
网卡,文件/etc/sysconfig/network-scripts/ifcfg-eth0
记载eth0
网卡的配置,对其进行更改如下: 删除DHCP协议对应的行,添加BOOTPROTO="static"
表示使用静态IP.
-
右键点击虚拟机,选择
管理->克隆
,选择创建完整克隆. -
对克隆出的虚拟机的IP地址进行更改:
先对/etc/udev/rules.d/70-persistent-net.rules
文件进行更改,该文件记录网卡信息,克隆出的新虚拟机有两条网卡记录,其中eth0
为源虚拟机的MAC地址,eth1
为新生成的MAC地址.因为两个网卡的eth0
的MAC地址会发生冲突,因此我们删除掉新虚拟机的eth0
网卡,并将其eth1
网卡命名为eth0
网卡.
更改前/etc/udev/rules.d/70-persistent-net.rules
文件内容如下:
修改后的/etc/udev/rules.d/70-persistent-net.rules
文件内容如下:
在文件/etc/sysconfig/network-scripts/ifcfg-eth0
中修改克隆出的虚拟机的ip地址以及mac地址(其MAC地址在/etc/udev/rules.d/70-persistent-net.rules
文件中能够看到)
更改好文件之后使用service network restart
重启网络服务,之后这太克隆机的局域网就配置好了,既可以访问外网,也可以访问局域网中的其他节点. -
另外,可以在
/etc/sysconfig/network
中修改节点的HOSTNAME
,在/etc/hosts
修改hosts文件.
安装JDK及Hadoop环境
- 在
/opt
目录下创建module
,software
文件夹,software
文件夹用来存储jar包,moudle
文件夹存放解压后的软件 - 下载
jdk
及Hadoop
的安装包wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" https://download.oracle.com/otn-pub/java/jdk/8u201-b09/42970487e3af4f5aa5bca3f542482c60/jdk-8u201-linux-x64.tar.gz
- 下载好后将tar包解压到
moudle
目录下 - 配置java环境变量:
- 将java的jar包解压到
moudle
目录下 - 对
/etc/profile
进行更改,在文件末尾添加下面几行## JAVA_HOME export JAVA_HOME=/opt/moudle/jdk1.8.0_201 export PATH=$PATH:$JAVA_HOME/bin
- 执行命令
source /etc/profile
运行profile
文件 - 执行
java -version
命令查看JDK环境.
- 将java的jar包解压到
- 安装Hadoop:
- 将Hadoop的jar包解压到
moudle
目录下 - 对
/etc/profile
进行更改,在文件末尾添加下面几行## HADOOP_HOME export HADOOP_HOME=/opt/moudle/hadoop-2.7.7 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
- 执行命令
source /etc/profile
运行profile
文件 - 执行
hadoop
命令查看hadoop.
- 将Hadoop的jar包解压到
Hadoop目录结构
Hadoop的目录结构如下所示
.
├── bin # 存放二进制文件
│ ├── container-executor
│ ├── hadoop
│ ├── hdfs
│ ├── yarn
│ └── ...
├── etc # 存放各种配置文件
│ └── hadoop
├── include # 存放C语言头文件
│ ├── xxx.h
│ └── ...
├── lib # 存放本地库
│ └── ...
├── libexec # 存放本地库
│ └── ...
├── sbin # 存放Hadoop集群启动停止命令
│ ├── hadoop-daemon.sh
│ ├── slaves.sh
│ ├── start-all.sh
│ ├── start-dfs.sh
│ ├── start-yarn.sh
│ ├── stop-all.sh
│ ├── stop-dfs.sh
│ ├── stop-yarn.sh
│ ├── yarn-daemon.sh
└── share # 存放说明文档和官方例程
├── doc
└── hadoop