hadoop基础二：HDFS的特点、三个服务、架构

最新推荐文章于 2024-05-12 01:04:01 发布

橙子园

最新推荐文章于 2024-05-12 01:04:01 发布

阅读量1.9k

点赞数 2

分类专栏： # hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/Chenftli/article/details/104430947

版权

hadoop 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

你的点赞与评论是我最大的创作动力！

在这里插入图片描述

优点：

一、高可靠性：hadoop一般都在成千的计算机集群之上，且可以搭建hadoop的高可靠集群，及内部容错功能优秀。
二、高扩展性：hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
三、高效性：hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
四、高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

缺点：

一、不适合低延迟数据访问
二、无法高效存储大量小文件
三、不支持多用户写入及任意修改文件

HDFS三个服务

1.namenode （metadata 元数据）
2.secondary namenode
3.datanode

区分两个概念：

数据：数据内容
元数据：文件名称、大小、所属人、地址

HDFS架构

NameNode

Namenode是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间（namespase）以及客户端对文件的访问。
文件操作：NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟那个DataNode联系，否则NameNode会成为系统的瓶颈。
副本存放在那些DataNode上由NameNode来控制，根据全局情况做出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低带块消耗和读取延时。
NameNode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告（Blockreport）。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

DataNode

一个数据块在DataNode是以文件存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令，如复制块数据到另一台机器，或者删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

HDFS文件权限

与linux文件权限类似
r:read; w:write: x:execute，权限x对于文件忽略，对于文件夹表示是否允许访问其内容。
如果linux系统用户Bob使用hadoop命令创建一个文件，那么这个文件在HDFS中所有者就是Bob
HDFS的权限目的：阻止好人做错事，而不是阻止坏人做坏事。HDFS相信，你告诉我你是谁，我就认为你是谁。

橙子园

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
hadoop基础二：HDFS的特点、三个服务、架构

优点：一、高可靠性：hadoop一般都在成千的计算机集群之上，且可以搭建hadoop的高可靠集群，及内部容错功能优秀。二、高扩展性：hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。三、高效性：hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。四、高容错性：Hadoop能够自动保存数据的多个副本，并且...
复制链接

扫一扫