hadoop分布式文件系统_Hadoop分布式文件系统简介

最新推荐文章于 2022-11-10 20:12:53 发布

cuxiong8996

最新推荐文章于 2022-11-10 20:12:53 发布

阅读量1.8k

点赞数

文章标签：大数据 hadoop 数据库 python linux

原文链接：https://www.ibm.com/developerworks/opensource/library/wa-introhdfs/index.html

版权

HDFS是Apache Hadoop项目中的分布式文件系统，适用于存储和处理大规模数据。它采用一次写入多次读取的模型，提供高吞吐量访问，并具有容错性。HDFS具有名称节点和数据节点，确保数据的复制和分布，支持数据的高可靠性。通过心跳机制检测节点健康状况，自动恢复故障。此外，HDFS还具有机架意识和数据完整性检查，保证数据安全性。

摘要由CSDN通过智能技术生成

hadoop分布式文件系统

HDFS是Apache Software Foundation项目和Apache Hadoop项目的子项目（请参阅参考资料）。 Hadoop是存储诸如TB和PB之类的大量数据的理想选择，并且使用HDFS作为其存储系统。 HDFS使您可以连接包含在其上分布数据文件的群集中的节点（商品个人计算机）。然后，您可以将数据文件访问和存储为一个无缝文件系统。对数据文件的访问以流方式处理，这意味着应用程序或命令直接使用MapReduce处理模型执行（同样，请参见参考资料）。

HDFS是容错的，并提供对大数据集的高吞吐量访问。本文探讨了HDFS的主要功能，并提供了HDFS体系结构的高级视图。

HDFS概述

HDFS与其他分布式文件系统有许多相似之处，但是在几个方面有所不同。 HDFS的一个明显区别是HDFS的“一次写入多次读取”模型，该模型放宽了并发控制要求，简化了数据一致性，并实现了高吞吐量访问。

HDFS的另一个独特属性是这样的观点：通常最好将处理逻辑放在数据附近，而不是将数据移至应用程序空间。

HDFS严格限制一次只能将数据写入一个写入器。字节总是附加在流的末尾，并且保证字节流按写入顺序存储。

HDFS有许多目标。以下是一些最著名的：

通过检测故障并进行快速，自动的恢复来实现容错
通过MapReduce流数据访问
简单而强大的一致性模型
处理逻辑靠近数据，而不是数据靠近处理逻辑
跨异构商品硬件和操作系统的可移植性
可扩展性以可靠地存储和处理大量数据
通过在商用个人计算机集群之间分布数据和进行处理来实现经济
通过分布数据和逻辑以在数据所在的节点上并行处理数据来提高效率
通过自动维护数据的多个副本并在发生故障时自动重新部署处理逻辑来确保可靠性

HDFS为应用程序提供了接口，以将它们移到数据所在的位置，如以下部分所述。

应用程序连接到HDFS

您可以通过多种不同方式访问HDFS。 HDFS为Java API提供了本机Java™应用程序编程接口（API）和本机C语言包装器。此外，您可以使用Web浏览器浏览HDFS文件。

表1中描述的应用程序还可用于与HDFS交互。

表1.可以与HDFS交互的应用程序

应用	描述
FileSystem（FS）外壳	类似于常见Linux®和UNIX®shell（bash，csh等）的命令行界面，允许与HDFS数据进行交互。
DFS管理员	可用于管理HDFS群集的命令集。

最低0.47元/天解锁文章

cuxiong8996

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫