Hadoop学习笔记—1.初识hadoop

最新推荐文章于 2021-04-04 21:58:58 发布

liuzebin9

最新推荐文章于 2021-04-04 21:58:58 发布

阅读量1k

点赞数 1

分类专栏： Hadoop 文章标签： Hadoop 分布式文件系统分布式云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuzebin9/article/details/70141597

版权

Hadoop 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Hadoop学习笔记—1.初识hadoop

一、Hadoop的发展历史

Hadoop的起源不得不说如今IT巨头Google。Google是云计算概念的提出者，为了在自身的搜索引擎业务中获得突破，设计了分布式文件系统，从此进入了分布式时代。

2004年，Google公开发表论文，向全世界介绍了MapReduce。 2005年，Nutch的开发者基于Google发布的MapReduce报告，在Nutch上开发了一个可工作的MapReduce应用，后来Yahoo也成立了专门的团队支持Hadoop的发展。2006年2月，Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2007年开始，国内优秀的IT公司如百度，阿里等开始研究hadoop系统，并将之使用在自己的业务中。在2008年中，Hadoop打破1TB数据排序基准测试记录，从此，hadoop声名鹊起，风靡全球。

Hadoop是一个搭建在廉价PC上的分布式集群系统架构，它具有高可用性、高容错性和高可扩展性等优点。由于它提供了一个开放式的平台，用户可以在完全不了解底层实现细节的情形下，开发适合自身应用的分布式程序。Hadoop的普及也让许多互联网公司能够从IOE（IBM小型机、Oracle数据库以及EMC存储）中解脱出来。

二、Hadoop的基础框架

Hadoop2.0主要由HDFS、MapReduce、YARN组成。

分布式存储系统HDFS（Hadoop Distributed File System）：

1、分布式存储系统
2、提供了高可靠性、高扩展性和高吞吐率的数据存储服务

3、适合PB级以上海量数据的存储

资源管理系统YARN：

负责集群资源的统一管理和调度

分布式计算框架MapReduce：

1、分布式计算框架

2、具有易于编程、高容错性和高扩展性等优点

3、适合PB级以上海量数据的离线处理

三、Hadoop的生态系统

随着Hadoop的发展，越来越多优秀的工具构建在Hadoop之上。

Hive(基于MR的数据仓库)：数据计算使用MR，数据存储使用HDFS。提供完整的Hql（类SQL）查询功能，可以将hql语句转换为MapReduce任务进行运行。

Pig:是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。

HBase:是一个开源的，基于列存储模型的分布式数据库。

ZooKeeper：高效的，可扩展的协调系统,存储和协调关键共享状态

Sqoop（数据库同步工具）：连接Hadoop与传统数据库之间的桥梁

Flume（日志收集工具）

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。