Hadoop的总体概述

小飞猪小肥猪

于 2018-12-04 18:04:05 发布

阅读量347

点赞数 1

分类专栏：大数据大数据原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abcdefghwelcome/article/details/84794127

版权

大数据同时被 2 个专栏收录

51 篇文章 0 订阅

订阅专栏

大数据原理

5 篇文章 0 订阅

订阅专栏

Hadoop的总体概述

Hadoop起源于谷歌的集群系统，谷歌的数据中心使用廉价Linux PC机组成集群，在上面运行各种应用。

其核心组件有3个：

第一个就是，GFS（GOOgle File Syetem），一个分布式文件系统，隐藏下层负载均衡冗余复制等细节，对上层程序提供一个统一的文件系统API接口。

第二个是MapReduce的，谷歌发现大多数分布式运算可以抽象为MapReduce的操作.MAP是把输入的输入分解成中间的键/值对，减少把键/值合成最终输出的输出。这两个函数由程序员提供给系统，下层设置把地图和减少操作分布在集群上运行，并把结果存储在GFS上。

第三个，BigTable的，一个大型的分布式数据库，这个数据库不是关系式的数据库，而是一个巨大的表格，用来存储结构化的数据。

Hadoop的是一个由阿帕奇基金会所开发的分布式系统基础架构。

而Hadoop的就是谷歌集群系统的一个开源实现，是一个项目总称。

Hadoop的特点

Hadoop的是一个能够让用户轻松和使用的分布式，计算平台用户可以轻松的在Hadoop的上开发和运行处理海量的应用程序，它主要有以下几个特点：

高可靠性：Hadoop的按位存储和处理数据的能力值得人们信赖。
高扩展性：Hadoop的是在可用的计算机集蔟间分配数据并完成计算任务，这些集蔟可以方便的扩展到数以千计的节点中。
高效性：Hadoop的能够自动保存数据的多个副本，并且能够自动将失败的任务重新任务。
低成本：与一体机，商用数据仓库以及QlikeView，YonghongZ套房等数据集市相比，Hadoop的是开源的，项目的软件成本因此会大大降低。

Hadoop的的组成部分

Hadoop的框架最核心的设计有两部分组成，分别是分布式文件系统和分布式计算框架。

分布式文件系统哈夫斯为海量的数据体供了存储，主要用于大规模数据的分布式存储。

分布式计算框架的MapReduce为海量的数据提供了计算，它构建在分布式文件系统之上，对存储在分布式文件系统中的数据进行分步式计算。

小飞猪小肥猪

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的总体概述

Hadoop的总体概述Hadoop起源于谷歌的集群系统，谷歌的数据中心使用廉价Linux PC机组成集群，在上面运行各种应用。其核心组件有3个：第一个就是，GFS（GOOgle File Syetem），一个分布式文件系统，隐藏下层负载均衡冗余复制等细节，对上层程序提供一个统一的文件系统API接口。第二个是MapReduce的，谷歌发现大多数分布式运算可以抽象为MapReduce的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。