Hadoop初识

最新推荐文章于 2024-07-08 14:25:36 发布

weixin_42434880

最新推荐文章于 2024-07-08 14:25:36 发布

阅读量78

点赞数

分类专栏：大数据文章标签： Hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42434880/article/details/98060204

版权

大数据专栏收录该内容

0 篇文章 0 订阅

订阅专栏

这篇博客主要给大家讲讲Hadoop是啥...

Hadoop介绍

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

该架构主要用于开发分布式程序，主要适用于并行高速计算和分布式存储。

Hadoop发展历程

2004年，Google发表论文，向全世界介绍什么是MapReduce。

2005年，Nutch的开发者基于Google发布的MapReduce报告，在Nutch上开发了一个可工作的MapReduce应用。（hadoop的前身）。

2007年，百度开始使用hadoop做离线处理。

2008年1月，Hadoop成为Apache顶级项目。

2008年7月，Hadoop打破1TB数据排序基准测试记录—— 209秒。

2009年，Cloudera推出世界上首个Hadoop发行版——CDH（Cloudera's Distribution including Apache Hadoop）。

2010年，扩大的Hadoop社区建立大量的新组建来扩展Hadoop的使用场景。

2012年，企业必须的功能NameNode HA 被加入Hadoop主版本。

Hadoop核心组件

Hadoop的框架三大核心组件就是：HDFS、YARN和MapReduce。

HDFS（Hadoop Distributed File System），为海量的数据提供了分布式存储，为Hadoop框架的分布式文件系统。

YARN，负责海量数据运算时的资源调度。

MapReduce（简称MR）为海量的数据提供了并行计算，为Hadoop框架的并行计算框架。

这三个组件将会后面的博客有具体介绍。

Hadoop的适用场景

适合

大规模数据
流式数据（写一次，读多次）
商用硬件（一般硬件）

不适合

低延时的数据访问
大量的小文件
频繁修改文件（基本就是写1次）

Hadoop的优点

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

尽情期待下篇HDFS（分布式文件系统）架构讲解。

weixin_42434880

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop初识

这篇博客主要给大家讲讲Hadoop是啥...Hadoop介绍Hadoop是一个由Apache基金会所开发的分布式系统基础架构。该架构主要用于开发分布式程序，主要适用于并行高速计算和分布式存储。Hadoop发展历程2004年，Google发表论文，向全世界介绍什么是MapReduce。2005年，Nutch的开发者基于Google发布的MapReduce报告，在Nutch上开...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。