大数据之Hadoop是什么?Hadoop起源?

什么是Hadoop

Hadoop 是一个用于存储和处理大规模数据集(大数据)的分布式存储和分布式计算平台。它由 Apache 软件基金会维护,并基于 Java 编程语言编写。Hadoop 的核心设计理念是能够在普通硬件上运行,并且能够处理非常大的数据集。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架

Hadoop 框架主要包括以下几个核心组件:

  1. Hadoop Distributed File System (HDFS): HDFS 是一个高度容错的分布式文件系统,它能够存储大量数据,并且提供高吞吐率的数据访问,特别是对大型文件的读写访问。HDFS 将数据分散存储在多台计算机上,形成一个逻辑上的单一文件系统。
  2. Yet Another Resource Negotiator (YARN): YARN 是 Hadoop 2.x 引入的资源管理层,它负责管理计算资源,并为运行在 Hadoop 集群上的应用程序分配资源。YARN 的引入使得 Hadoop 能够更有效地利用集群资源,并支持多种数据处理框架。
  3. MapReduce: MapReduce 是一种编程模型,用于并行处理大量数据。在 MapReduce 中,数据被分成小块,然后由多个 map 任务处理,处理完后的结果再由 reduce 任务合并。MapReduce 是 Hadoop 早期的核心组成部分,但在 Hadoop 2.x 中,MapReduce 成为了 YARN 上的一个应用程序。

除了这些核心组件,Hadoop 生态系统还包括许多其他的项目和工具,如:

  • Hive:用于数据仓库任务的数据汇总、查询和分析。
  • Pig:提供高级脚本语言,用于编写 MapReduce 程序。
  • Spark:一个快速的通用分布式计算系统,可以替代 MapReduce 进行数据处理。
  • HBase:一个分布式、可扩展的 NoSQL 数据库,运行在 Hadoop 之上,提供随机读写访问大量数据的能力。
  • Flume:用于高效地收集、聚合和移动大量日志数据到 HDFS。
  • Sqoop:用于在 Hadoop 和关系型数据库之间传输数据。

Hadoop 的可扩展性和容错性使其成为处理大数据问题的理想选择,尤其是在需要处理PB级数据量的场景中。此外,Hadoop 的生态系统不断扩展,提供了丰富的工具和框架,以支持各种大数据处理需求。

Hadoop的起源

Hadoop起源于Apache Nutch项目,Doug Cutting受Google的三篇论文启发实现了Hadoop框架。

Google的三篇论文 GFS:Google的分布式文件系统(Google File System) MapReduce:Google的分布式计算框架 BigTable:大型分布式数据库

发展演变关系: GFS —> HDFS Google MapReduce —> Hadoop MapReduce BigTable —> HBase

可见,Hadoop实际上是基于Google的大数据技术演化出来的。

2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache。

2006年,Hadoop从Nutch剥离出来独立。

2008年,Hadoop成为Apache的顶级项目。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Transform to the power of data 大数据基础培训教程 datainsight@sina.com November 2015 @数据视野 主要内容 大数据起源与目标 大数据Hadoop Hadoop的应用模式 什么是大数据起源与目标 大数据Hadoop 应用模式 大数据的产生背景:RDBMS时代回头看 索引 查询 交易 起源与目标 大数据Hadoop 应用模式 大数据的产生背景:技术博弈 交易 分析 起源与目标 大数据Hadoop 应用模式 大数据的产生背景:原动力 性能 价格 收益 成本 VS 起源与目标 大数据Hadoop 应用模式 大数据的核心理念 Xoom不跨境汇款异常交易报警 网管异常日志分析 随机样本 全体数据 Google Rosetta VS. IBM Candide:美国标准局(NIST)机器翻译系统评测(2007) 摘自:Viktor Mayer-Schonberger"大数据时代",吴军"数学之美" 精确性 混杂性 沃尔玛的飓风不蛋挞:Teradata,20丐纪90年代 因果关系 相关关系 起源与目标 大数据Hadoop 应用模式 大数据能做什么? 数据分析与报表 预测 数据挖掘与BI 机器学习与Google大 脑 起源与目标 大数据Hadoop 应用模式 大数据技术IT人员的挑战——DevOps DevOps Development和Operations的 组合,是一组过程、方法与 系统的统称,用于促进开发 (应用程序/软件工程)、技 术运营和质量保障(QA)部 门之间的沟通、协作与整合。 它的出现是由于软件行业日 益清晰地认识到:为了按时 交付软件产品和服务,开发 和运营工作必须紧密合作。 摘自:http://zh.wikipedia.org/wiki/DevOps 起源与目标 大数据Hadoop 应用模式 大数据运动的目标 Find something where you provide a scarce, complementary service to something that is getting ubiquitous and cheap. So what's getting ubiquitous and cheap? Data. And what is complementary to data? Analysis. By Hal Varian, Google's chief economist 起源与目标 大数据Hadoop 应用模式 推荐读物 主要内容 大数据起源与目标 大数据Hadoop Hadoop的应用模式 Google的"三驾马车":起源 HDFS MapReduce HBase 业 务 驱 动 起源与目标 大数据Hadoop 应用模式 Hadoop的前世今生 Hadoop最早作为Nutch的一个模块被引入,Nutch又是Lucene的一个子 项目 Lucene是Apache下的一个全文索引引擎 Nutch是一个完整的搜索引擎,它以Lucene为核心 Hadoop的用途在于分析Nutch爬虫抓取的WEB页面并为其建立索引 2003年Google发表论文介绍GFS文件系统,2004年HDFS(NDFS)项目建立 2004年Google发表论文介绍MapReduce算法,2005年Nutch中实现了 MapReduce算法 2006年2月Hadoop独立成Lucene的一个子项目,与此同时,Hadoop创 始人Doug Cutting加入YAHOO 2007年11月纽约时报利用亚马逊EC2和Hadoop将4TB的报纸扫描件转化 成PDF 2008年1月Hadoop成为Apache顶级项目(Top-Level Project) 2008年2月YAHOO宣布其生产网利用Hadoop集群为搜索引擎建立索引, 集群规模超过1万个CPU核心 起源与目标 大数据Hadoop 应用模式 大数据Hadoop STORM 大数 据 大数据的应用范畴: 海量数据的快速查询 海量数据的归档不保存 数据汇总不报表 数据挖掘 预测 Hadoop大数据: 1、Hadoop 大数据库 2、Hadoop是目前发展的最为成熟的大数据库技术 3、Hadoop是一种较为通用的大数据技术 4、后起之秀:STORM、SPARK 起源与目标 大数据Hadoop 应用模式 Hadoop的社区版与发行版 【Hadoop社区版】 由Apache社区主导, 是所有Hadoop发行 版的源头。Hadoop 社区以投票的形式决 定Hadoop版本的发 展方向 100%开放源代码,兼 容社区版,Hadoop市 场占有率全球第一, 社区的主导力量 100%开放源代码,完 全兼

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值