hadoop相关介绍

最新推荐文章于 2023-06-30 19:53:37 发布

dream_back

最新推荐文章于 2023-06-30 19:53:37 发布

阅读量108

点赞数

分类专栏：大数据文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/dream_back/article/details/103581016

版权

1 篇文章 0 订阅

订阅专栏

大数据：指无法在一定时间范围内用常规软件进行捕捉，管理和处理的数据集合，需要新处理模式才能具有更强的决策力，洞察发现力，和流程优化的能力的海量、高增长率和多样化的信息资产。

主要解决海量数据的存储，海量数据的分析计算：TB，PB，EB

特点：大量(volume），高速(velocity)，多样(variety)，低价值密度(value), 4v

大数据部门组织架构
平台组：偏向运维，高级，编辑源码

1.高可靠性：底层维护多个数据副本
2.高扩展性：在集群间分配任务，可方便扩展，不用停掉已开启的服务器
3.高效性：并行工作，MapReduce
4.高容错性：自动将失败的任务从新分配

hadoop组成
hdfs:

yarn：

Resource Manager(RM)
1.处理客户端请求
2.监控Node Manage
3.启动或监控ApplicationMaster
4.资源分配和调度
Node Manager(NM)
1.管理单个节点的资源
2.处理来自Resource Manager的命令
3.处理来自applicantMaster的命令
ApplicationMaster(AM)
1.负责数据的切分
2.为应用程序申请资源并分配给内部的任务
3.任务的监控与容错
Container
是yarn中资源的抽象，封装了某个节点的多维度资源，如内存，cpu，磁盘，网络等

MapReduce

大数据生态系统

在这里插入图片描述

关注