01Hadoop (入门)
1.1 Hadoop简介
1.Hadoop1.x、2.x、3.x区别
3.HDFS架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。
- Namenode(nn):
存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本故
文权限),以及每个文件的块列表和块所在的 Datanodes等。
- Datanode(dn):
在本地文件系充存储文件块数据,以及块数据的校验和。
- Secondary Namenode(2nn):
毎隔一段时间对 Namenode元数据备份。
4.YARN架构概述
5.MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
6.HDFS、YARN、MapReduce三者关系
7.大数据的生态体系
结构化:有行有列二维表格
半结构:行中分隔符、可以导入mysql(用户行为)
1.2 Hadoop运行环境搭建
1.Hadoop目录结构
重要目录
(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
(4)sbin目录:存放启动或停止Hadoop相关服务的脚本
(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例
重点掌握命令:
1.3 Hadoop运行模式
1)Hadoop官方网站:
http://hadoop.apache.org/
2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
完全分布式模式:多台服务器组成分布式环境。生产环境使用。
3)免密登录原理