1.1 Hadoop 环境搭建
Hadoop 的环境可以有多种方式,比如本地模式(standalone)、伪分布式、完全分布式以及 HA 模式。参考:
https://blog.csdn.net/qq_26442553/article/details/78710170 hadoop 的三种运行模式区别及配置详解
1.1.1Hadoop 安装包
这里采用 Hadoop2.7.3 版本,可以在官网 https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
核心配置文件
Hadoop 主要有四个核心配置文件,如下:
- core-site.xml:配置通用属性
- hdfs-site.xml:配置 HDFS 的属性
- mapred-site.xml:配置 MapReduce 的属性
- yarn-site.xml:配置 YARN 的属性
本地模式(Local/Standalone)
也称为“独立模式”。没有任何守护进程,所有的程序都运行在同一个 JVM 上。在本地模式下调试 MR 程序非常方便。所以一般该模式主要是在学习或者开发阶段调试使用 。
搭建步骤
- 将 hadoop-2.7.3.tar.gz 上传到/root 目录下; 使用put命令上传,默认会上传到opt文件夹中
- 解压 进入opt文件夹中进行解压
[root@centos7 ~]# cd /opt/
[root@centos7 opt]# tar zxf ~/hadoop-2.7.3.tar.gz
hadoop 目录介绍[root@centos7 opt]# ls -lrt hadoop-2.7.3/ total 108
drwxr-xr-x 4 root root 31 Aug 18 2016 share
drwxr-xr-x 2 root root 4096 Aug 18 2016 sbin
-rw-r--r-- 1 root root 1366 Aug 18 2016 README.txt
-rw-r--r-- 1 root root 14978 Aug 18 2016 NOTICE.txt
-rw-r--r-- 1 root root 84854 Aug 18 2016 LICENSE.txt
drwxr-xr-x 2 root root 239 Aug 18 2016 libexec
drwxr-xr-x 3 root root 20 Aug 18 2016 lib
drwxr-xr-x 2 root root 106 Aug 18 2016 include
drwxr-xr-x 3 root root 20 Aug 18 2016 etc
drwxr-xr-x 2 root root 194 Aug 18 2016 bin [root@centos7 opt]#
share:hadoop 各个模块的 jar 包、源码以
sbin:hadoop 的各种运维命令
bin:hadoop 的执行命令
libexec:shell 配置文件
lib:本地 so 库
include:头文件
etc:hadoop 的各类 xml 配置文件
本地运行 wordcount
WordCount 是 Hadoop 自带的一个统计单次个数的 MapReduce 程序。
第一步:准备好需要统计的文件
这里直接用 etc/hadoop 下面的配置文件。在hadoop-2.7.3文件夹中执行以下命令
[root@centos7 hadoop-2.7.3]# mkdir input //创建存放统计文件的文件夹
[root@centos7 hadoop-2.7.3]# cp etc/hadoop/*.xml input //将需要统计分析的文件拷贝到input文件夹中
第二步:执行 wordcount 在hadoop-2.7.3文件夹中执行以下命令
[root@centos7 hadoop-2.7.3]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'config[a-z.]+'
第三步:查看统计结果 在hadoop-2.7.3文件夹中执行以下命令
[root@centos7 hadoop-2.7.3]# cat output/*
17 configuration
3 configuration.xsl
1 configured
[root@centos7 hadoop-2.7.3]#