1、准备工作
环境:centsOS7.0、jdk1.8
发行版 :Hadoop2.5.0
2、Hadoop目录结构
bin:Hadoop最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。
etc:Hadoop配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop 1.0继承而来的配置文件和yarn-site.xml等
include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用,这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写写MapReduce程序。
lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。
libexec:各个服务对应的shell配置文件所在目录,可用于配置日志输出目录、启动参数(比如目录、启动参数(比如JVM参数)等基本信息。
sbin:Hadoop管理脚本所在目录,主要包含HDFS和YARN中各类服务的启动的启动/关闭脚本。
share:Hadoop各个模块编译后的jar包所在目录。
3、单机版安装(Local (Standalone) Mode)
步骤1:将安装包hadoop-2.5.0.tar.gz存放到某一目录下,并解压步骤。
步骤2:修改解压后的目录中的文件夹etc/hadoop下的xml配置文件(如果文件不存在,则自己创建)果文件不存在,则自己创建)
修改 hadoop-env.sh文件修改以下配置:
export JAVA_HOME=/usr/local/java/jdk1.8.0_121
3.1、单机版—案例1
案例1结果
3.2、单机版—案例2(经典案例统计单词的次数)
4、搭建伪分布式
4.1、HDFS部署搭建(经典案例统计单词次数-在MaoReduce运行)
etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://czy-1:8888</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/chenzhengyou/hadoop/standalone/hadoop-2.5.0/data/tmp</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml
<configuration>
<!--副本数-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
4.1.2、格式化hdfs
4.1.3、几个命令
上传:bin/hdfs dfs -put -p wcinput/word.input chenzhengyou/mapreduce/wordcount/input(红色的是本地的)
4.1.4、启动界面(2.5版本界面看着很舒服)
sbin/hadoop-daemon.sh start datanode
4.2.1、YARN搭建部署(经典案例统计单词次数-在yarn运行)
etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>czy-1</value>
</property>
</configuration>
etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>