一、安装Hadoop
-
Hadoop运行的前提是本机已经安装了JDK,配置JAVA_HOME变量
-
在Hadoop中启动多种不同类型的进程
例如NameNode,DataNode,ResourceManager,NodeManager,这些进程需要进行通信。
在通信时,常用主机名进行通信。
需要在集群的每台机器上,配置集群中所有机器的host映射。
配置:
Linux: /etc/hosts
Windows: C:\Windows\System32\drivers\etc\hosts
如果不配会报错:
DNS映射异常,HOST映射异常 -
注意权限
hadoop框架在运行需要产生很多数据(日志),数据的保存目录,必须让当前启动hadoop进程的用户拥有写权限。 -
关闭防火墙,设置开机不自启动
service iptables stop
chkconfig iptables off
二、Hadoop目录介绍
#查看目录结构
[wuyik@hadoop101 hadoop-2.7.2]$ ll
总用量 52
drwxr-xr-x. 2 wuyik wuyik 4096 5月 25 2020 bin
drwxr-xr-x. 3 wuyik wuyik 4096 5月 25 2020 etc
drwxr-xr-x. 2 wuyik wuyik 4096 5月 25 2020 include
drwxr-xr-x. 3 wuyik wuyik 4096 5月 25 2020 lib
drwxr-xr-x. 2 wuyik wuyik 4096 5月 25 2020 libexec
-rw-r--r--. 1 wuyik wuyik 15429 5月 25 2020 LICENSE.txt
-rw-r--r--. 1 wuyik wuyik 101 5月 25 2020 NOTICE.txt
-rw-r--r--. 1 wuyik wuyik 1366 5月 25 2020 README.txt
drwxr-xr-x. 2 wuyik wuyik 4096 5月 25 2020 sbin
drwxr-xr-x. 4 wuyik wuyik 4096 5月 25 2020 share
重要目录:
(1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
(4)sbin目录:存放启动或停止Hadoop相关服务的脚本
(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例
三、Hadoop的配置文件
hadoop安装后,hadoop的性能和表现取决于用户的配置。
其中最重要的是8个配置文件。其中,
4个默认的配置文件:
位置: HADOOP_HOME/share/xxxx.jar/xxx-default.xml
core-default.xml: 设置hadoop最核心的参数。
hdfs-default.xml: 保存的是hdfs相关的参数。
mapred-default.xml: MapReduce程序在运行时,需要使用的参数。
yarn-default.xml: yarn在启动时,需要的参数。
4个用户可以自定义的配置文件: xxx-site.xml
core-site.xml: 用户自定义的设置hadoop最核心的参数。
hdfs-site.xml: 用户自定义的保存的是hdfs相关的参数。
mapred-site.xml: 用户自定义的MapReduce程序在运行时,需要使用的参数。
yarn-site.xml: 用户自定义的yarn在启动时,需要的参数。
(用户自定义的配置文件,可以覆盖默认配置文件中同名的参数的值。)
Hadoop在启动时,会先加载4个默认的配置文件,再加载用户自定义的配置文件,如果用户自定义的配置文件中有和4个默认配置文件中相同的参数,可以覆盖之前已经加载的值。
四、注意事项
在使用hadoop命令时,可以自定义配置文件的目录: hadoop --config 配置文件的目录。
如果没有配置,默认读取 HADOOP_HOME/etc/hadoop 中对应的配置文件。
如果通过hadoop-daemon.sh start namenode脚本去执行启动命令,只会去默认的目录中读取配置文件。