Hadoop简介

火眼猊

已于 2022-07-26 15:50:30 修改

阅读量1.5k

点赞数

分类专栏： hadoop 文章标签： hadoop mapreduce 大数据

于 2022-07-26 14:08:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JAX_fire/article/details/125993168

版权

hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Hadoop介绍

狭义上Hadoop指的是Apache软件基金会的一款开源软件
Hadoop核心组件
Hadoop HDFS（分布式文件存储系统）：解决海量数据存储
Hadoop YARN（集群资源管理和任务调度框架）：解决资源任务调度
Hadoop MapReduce（分布式计算框架）：解决海量数据计算
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈

Hadoop发展简史

hadoop之父：doug Cutting
Hadoop起源于Apache Lucene子项目：Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎
遇到瓶颈：如何解决数十亿网页的存储和索引问题
Google三篇论文
《The Google file system》：谷歌分布式文件系统GFS
《MapReduce：Simplified Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce
《Bigtable：A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

Hadoop现状

HDFS作为分布式文件存储系统，处在生态圈的底层与核心地位
YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位
MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据

Hadoop特性优点

扩容能力（scalability）：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可以方便灵活的方式扩展到数以千计的节点。
成本低（Economical）：Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据，以至于成本很低。看中的是集群的整体能力
效率高（efficiency）：通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快
可靠性（reliability）：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

火眼猊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。