Hadoop起源及其四大特性详解

最新推荐文章于 2022-05-30 21:55:58 发布

wfu

最新推荐文章于 2022-05-30 21:55:58 发布

阅读量1.4k

点赞数

分类专栏：云计算文章标签： hadoop google mapreduce 集群数据库存储

本文链接：https://blog.csdn.net/camel20/article/details/7220153

版权

云计算专栏收录该内容

3 篇文章 0 订阅

订阅专栏

项目主页：http://hadoop.apache.org

一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。
简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streamingaccess）文件系统中的数据。
下面列举hadoop主要的一些特点：
1扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。
2成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
3高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。
4可靠性（Reliable）：hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。

起源：Google的集群系统

Google的数据中心使用廉价的LinuxPC机组成集群，在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个：
1、GFS（GoogleFileSystem）。一个分布式文件系统，隐藏下层负载均衡，冗余复制等细节，对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化，包括：超大文件的访问，读操作比例远超过写操作，PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。详见Google的工程师发布的GFS论文。
2、MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对，Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。
3、BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。

wfu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop起源及其四大特性详解

项目主页：http://hadoop.apache.org一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HD
复制链接

扫一扫

专栏目录