Hadoop目录结构:
Hadoop重要目录:
(1)bin 目录:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行操作的脚本
(2)etc 目录:Hadoop 的配置文件目录,存放 Hadoop 的配置文件
(3)lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)
(4)sbin 目录:存放启动或停止 Hadoop 相关服务的脚本
(5)share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例
Hadoop运行模式
Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
- 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
- 伪分布式模式:也是单机运行,但是具备 Hadoop 集群的所有功能,一台服务器模 拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
- 完全分布式模式:多台服务器组成分布式环境。生产环境使用。
我们已经在hadoop101这台虚拟机中安装了hadoop和java,我们可以在虚拟机中对其进行单机测试
- 首先创建一个文本文件如下:
- 然后我们运行hadoop自带的一个字符个数统计的demo
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoopmapreduce-examples-3.1.3.jar wordcount 1.txt ./output
- 在output文件夹中查看程序的运行结果:
- 单机模式测试完成,但实际中我们需要的是完全分布式模式。
完全分布式运行模式是开发的重点,也是我们主要学习的模式,下篇配置三台hadoop集群
我们现在的准备以及后续的准备有:
1)准备 3 台客户机(关闭防火墙、静态 IP、主机名称)√
2)安装 JDK √ (Hadoop101)
3)配置系统环境变量 √ (Hadoop101)
4)安装 Hadoop √ (Hadoop101)
5)配置 ssh 和分发脚本
6)配置Hadoop环境变量
7)配置集群
8)启动并测试集群
百度网盘资料包
链接:https://pan.baidu.com/s/1fa7sHVFdeS6bzzNeEfmnqQ
提取码:0xgs