Hadoop知识大纲，终于知道整个过程都会学什么了

最新推荐文章于 2024-05-05 22:04:57 发布

晴々明雅

最新推荐文章于 2024-05-05 22:04:57 发布

阅读量307

点赞数

文章标签： Hadoop知识大纲

本文链接：https://blog.csdn.net/qq_43701760/article/details/88647926

版权

1. Hadoop发展简史

2. Hadoop集群搭建

1)集群的分工    HDFS集群  负责海量数据的存储
			  Yarn集群  负责海量数据运算时的资源调度
			MapReducer  负责运算
2)服务器准备	
[3)网络环境准备](https://blog.csdn.net/qq_43701760/article/details/87942979)
4)服务器系统设置
5)JDK环境安装
6)Hadoop安装包目录结构
7)Hadoop配置文件修改
	1，防火墙 systemctl stop firewalld
	2,etc/hadoop
		hadoop-env.sh		(配置JDK环境)
		core-site.sh		(指定Hadoop使用的文件系统/namenode地址/指定Hadoop运行时产生的文件存储目录)
		hdfs-site.sh		(指定副本的的数量)
		mapred-site.sh		(指定yarn运行时的框架)
		yarn-site.sh		(指定yarn的地址/处理mapReducer程序的附属服务)
	3，vi /etc/profile(配置Hadoop的环境变量)
		vi slaves			(安装datanode,设置从节点位置，为一键启动提供条件)
8）Hadoop环境变量

3. Hadoop集群的启动

1）启动方式
 (单节点启动)    Hadoop-dfs.sh start namenode   /   Hadoop-dfs.sh start datanode
 			start-dfs.sh
 			  Hadoop-dfs.sh start ResourceManager   /   Hadoop-dfs.sh start nodeManager
			        start-yarn.sh

（**一键启动**）start-all.sh 		

2)集群网页查看

4. 三大框架之HDFS

***1）HDFS简介***   是Hadoop distribute file system的简称
***2）重要特性***   1））通过统一的命名空间目录树来定位文件
				2））主从架构（master/slave）
				3））分块存储
				4））元数据（目录结构/文件分块信息）由namenode管理
				5））datanode  存储具体的block块，并定时向namenode汇报自己持有的信息
				6））副本（备份）机制（默认为3，即一共3个）
				7））一次写入，多次读取，不支持修改
***3）基本操作***         shell命令
***4）基本原理***      HDFS写入数据流程
			  	HDFS读取数据流程
***5）HDFS应用开发***
		（核心步骤：从HDFS提供的API中构造一个HDFS的访问客户端对象，再通过客户端对象来操作HDFS上的文件）
		1））搭建开发环境
		       		创建maven工程，引入pom依赖  （常用的Hadoop-common    Hadoop-hdfs    Hadoop -client）
				配置Windows平台Hadoop环境 （在hdfs-site.sh中）
		 2））构造客户端对象  主要涉及一下class
		 	configuration :封装了客户端的配置信息
		 	FileSystem:是一个文件系统对象，通过get获取对象

5. 三大框架之MapReducer

                 分两个阶段:1 继承Mapper  实现字符的切割
                 			2 继承Reducer  实现统计功能
                 			最后将任务提交给job，打印日志信息

6. 三大框架之Yarn

		任务调度系统，资源分配

然后就是Hadoop生态中各组件的搭建和基础使用
在这里插入图片描述

晴々明雅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫