Hadoop是什么?

原创 2015年11月17日 17:00:17

Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。

 

Hadoop的架构

在其核心,Hadoop主要有两个层次,即:

加工/计算层(MapReduce),以及

存储层(Hadoop分布式文件系统)。

MapReduce

 

          MapReduce是一种并行编程模型,用于编写普通硬件的设计,谷歌对大量数据的高效处理(多TB数据集)的分布式应用在大型集群(数千个节点)以及可靠的容错方式。MapReduce程序可在Apache的开源框架Hadoop上运行。

 

Hadoop分布式文件系统

          Hadoop分布式文件系统(HDFS)是基于谷歌文件系统(GFS),并提供了一个设计在普通硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。来自其他分布式文件系统的差别是显著。它高度容错并设计成部署在低成本的硬件。提供了高吞吐量的应用数据访问,并且适用于具有大数据集的应用程序。

除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:

Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具。

Hadoop YARN :这是作业调度和集群资源管理的框架。

 

Hadoop如何工作?

 

          建立重配置,处理大规模处理服务器这是相当昂贵的,但是作为替代,可以联系许多普通电脑采用单CPU在一起,作为一个单一功能的分布式系统,实际上,集群机可以平行读取数据集,并提供一个高得多的吞吐量。此外,这样便宜不到一个高端服务器价格。因此使用Hadoop跨越集群和低成本的机器上运行是一个不错不选择。

Hadoop运行整个计算机集群代码。这个过程包括以下核心任务由Hadoop 执行:

数据最初分为目录和文件。文件分为128M和64M(128M最好)统一大小块。

然后这些文件被分布在不同的群集节点,以便进一步处理。

HDFS,本地文件系统的顶端﹑监管处理。

块复制处理硬件故障。

检查代码已成功执行。

执行发生映射之间,减少阶段的排序。

发送排序的数据到某一计算机。

为每个作业编写的调试日志。

 

Hadoop的优势

 

Hadoop框架允许用户快速地编写和测试的分布式系统。有效并在整个机器和反过来自动分配数据和工作,利用CPU内核的基本平行度。

Hadoop不依赖于硬件,以提供容错和高可用性(FTHA),而Hadoop库本身已被设计在应用层可以检测和处理故障。

服务器可以添加或从集群动态删除,Hadoop可继续不中断地运行。

Hadoop的的另一大优势在于,除了是开源的,因为它是基于Java并兼容所有的平台。

版权声明:本文为博主原创文章,未经博主允许不得转载。

初识Hadoop,Hadoop是什么?

前言:Hadoop是一个分布式系统基础架构。基本概述: Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 HDFS有高...
  • Ink4T
  • Ink4T
  • 2017年08月20日 23:41
  • 1483

hadoop到底是什么

一天天都在说hadoop,到底什么才是hadoop呢? 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集...
  • hsl_1990_08_15
  • hsl_1990_08_15
  • 2016年01月06日 16:54
  • 13600

hadoop入门教程-hadoop是什么

随着互联网的发展,大数据时代越来越受到关注,所以最近在看一些关于大数据的书,下面是我在读书中的心得体会:           hadoop是一个开源的大数据分析软件,或者说编程模式。它是通过分布...
  • u010158267
  • u010158267
  • 2016年03月31日 21:39
  • 378

Hadoop是什么?

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hado...
  • maguanghui_2012
  • maguanghui_2012
  • 2015年06月25日 23:31
  • 346

hadoop是什么?

hadoop是什么? 简单得说: 1、是一个文件系统。相比较WinXP,它可以同时利用多台机器。 2、装WinXP,1个WinXP系统你只能装在一台机器上。而1个Hadoop系统可以装在一台机上,...
  • liangzhaoyang1
  • liangzhaoyang1
  • 2016年04月16日 14:42
  • 482

Hadoop 是什么

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架...
  • LANGZI7758521
  • LANGZI7758521
  • 2016年09月12日 14:37
  • 171

Hadoop是什么

Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法,它能够...
  • wzwfly
  • wzwfly
  • 2007年07月04日 17:47
  • 725

hadoop是什么

Hadoop主要由HDFS、MapReduce和Hbase组成。 它是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下开发分布式程序。 简单地说来,,Hado...
  • test_soy
  • test_soy
  • 2015年08月31日 15:22
  • 389

Hadoop是什么?

谈到Hadoop就不得不提到Lucene和Nutch。首先,Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中实现全文搜索/索引功能。...
  • ibmfahsion
  • ibmfahsion
  • 2012年08月06日 09:57
  • 510

hadoop 是什么?

hadoop 是一个平台,是适合大数据的分布式存储和计算的平台。什么是分布式存储?这就是后面我们要讲的hadoop核心之一HDFS; 什么是分布式计算?这是我们后边要讲的Hadoop另外一个重要的核...
  • zbsxtzb
  • zbsxtzb
  • 2017年02月06日 21:09
  • 47
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop是什么?
举报原因:
原因补充:

(最多只允许输入30个字)