大数据及Hadoop入门

最新推荐文章于 2024-07-19 00:13:26 发布

Jayhenry

最新推荐文章于 2024-07-19 00:13:26 发布

阅读量129

点赞数

文章标签：大数据 hadoop java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_38594401/article/details/110210455

版权

大数据及Hadoop入门

大数据基础
- 概念
- 基础知识
Hadoop入门

大数据基础

概念

大数据（Big Data）指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

基础知识

存储单位
bit、Byte、KB、GB、TB、PB、EB、ZB、YB、BB、NB、DB

Hadoop入门

概念

用于解决海量数据的存储和分析计算问题的分布式架构

优势

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据丢失。
高扩展性：在集群件分配任务数据，可方便的扩展数以千计的节点。
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
高容错性：能够自动将失败的任务重新分配。

版本差异

版本差异
在Hadoop2.x时代，对耦合性进行了优化，增加了Yarn，Yarn只负责资源调度，MapReduce只负责运算。

HDFS

Namenode：存储文件的元数据，如文件名、文件目录结构，文件属性
Datanode：存储文件块数据，以及块数据的校验和
Secondary Namgenode：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据快照

Yarn

Yarn架构
RecourceManager

处理客户端请求
监控NodeManager
启动或监控ApplicationMaster
资源的分配与调度

NodeManager

管理单个节点资源
处理来自RecourceManager的命令
处理来自ApplicationMaster的命令

ApplicationMaster

负责数据的切分
为应用程序申请资源并分配给内部的任务
任务的监控和容错

Container
封装单个节点上的多维度资源，如内存、CPU、磁盘、网络等

MapReduce

计算分为两个阶段，Map和Reduce
Map：将输入数据进行切分，并行处理
Reduce：对Map结果进行汇总

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。