Hadoop简介

最新推荐文章于 2020-11-09 17:16:42 发布

Aliley

最新推荐文章于 2020-11-09 17:16:42 发布

阅读量179

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22313585/article/details/78925332

版权

大数据专栏收录该内容

7 篇文章 1 订阅

订阅专栏

Hadoop是一个用于分布式大数据处理的编程框架。同时它也是个大数据处理完整的生态系统，围绕着Hadoop，这个生态系统还包括但不限于：HBase、Hive、Pig、Spark、Zookeeper。Hadoop是一个适合大数据的分布式存储与计算平台。

一、HDFS（分布式文件系统）

1）主从结构：主节点只有一个 namenode；从节点有很多个 datanodes

2）namenode负责管理

接收用户操作请求，可以实现对文件系统的操作（一般的操作方式有两种：命令行方式和Java API方式）；

维护文件系统的目录结构（用来对文件进行分类管理）；

管理文件与block之间的关系（文件被划分成了block，block属于哪个文件，Block的顺序），block与datanode之间的关系。

3）datanode负责存储

存储文件；

文件被分成block（block一般是以64M来划分，但每个block块所占用的空间是文件实际的空间）存储在磁盘上，将大数据划分成相对较小的block块，这样可以充分利用磁盘空间，方便管理；

为保证数据安全，文件会有多个副本，这些副本会一块一块复制，分别存储在不同的DataNode上。

二、MapReduce（并行计算框架）

1）主从结构：主节点只有一个 JobTracker；从节点有很多个 TaskTracker

2）JobTracker

接收客户提交的计算任务；

把计算任务分给TaskTracker执行；

监控TaskTracker的执行情况。

3）TaskTracker

执行JobTracker分配的计算任务。

三、Hadoop的特点

1）扩容能力：能可靠地存储和处理千兆字节数据；

2）成本低：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千节点；

3）高效率：通过分发数据，hadoop可以在数据所在的节点上并行地处理他们，这使得处理非常的快速；

4）可靠性：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署计算任务。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。