Hadoop01【尚硅谷】

Blueming_first

已于 2023-02-17 18:22:04 修改

阅读量1k

点赞数 2

分类专栏：大数据文章标签： hadoop 大数据分布式

于 2023-02-17 17:46:18 首次发布

本文链接：https://blog.csdn.net/Cypresszky/article/details/129088416

版权

4 篇文章 0 订阅

订阅专栏

大数据学习笔记

大数据：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决，海量数据的存储和海量数据的分析计算问题。

4V：大量、高速（实时性要求高）、多样（数据类型多样）、低价值密度

数据类型：

大数据应用：物流仓库、零售、旅游、商品广告推荐、保险、金融、人工智能

大数据部门业务流程分析：
产品人员提需求 --> 数据部门搭建数据平台、分析数据指标 --> 数据可视化

大数据部门组织结构：
在这里插入图片描述

Hadoop：

Hadoop三大发行版本：Apache、Cloudera、Hortonworks

Hadoop的优势（4高）：

Hadoop组成（面试重点）：
hadoop1.x和hadoop2.x区别：

组成不一样

在hadoop1.x时代，hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，在hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。

hdfs（hadoop分布式系统架构）：

NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。（管理数据存放在哪里，相当于目录）
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。（真正存数据的）
Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

主要作用是做资源调度。

ResourceManger（RM）
1）处理客户端请求
2）监控NodeMangaer
3）启动或监控ApplicationMaster
4）资源分配与调度
NodeManager（NM）
1）管理单个节点上的资源
2）处理来自ResourceManager的命令
3）处理来自ApplicationMaster的命令
ApplicationMaster（AM）
1）负责数据的切分
2）为应用程序申请资源并分配给内部的任务
3）任务的监控与容错
Container
Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。