Hadoop分布式文件系统：HDFS（拓展）

最新推荐文章于 2024-07-28 16:45:11 发布

向上突围

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量94

点赞数

文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/m0_67448168/article/details/130727692

版权

本文是进入“大数据”的一个入口，需要掌握HDFS的基本原理，知道为什么它可以存储海量数据，知道“百度网盘”本身是什么？能否自己也实现一个网盘。让大家一开始就进入大数据实战阶段。

特此说明：内容适合人群

在学习HDFS之前，我们先来了解一下Hadoop的相关知识。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构；

Hadoop以一种可靠、高效、可伸缩的方式对大量数据存储和分析计算；

用户可以在不了解分布式底层细节的情况下，开发分布式程序。

Hadoop生态圈如下：

2.1 HDFS介绍

产生背景：随着数据量越来越大，在一台电脑上存不下所有的数据，那么就分配到更多的电脑组成的集群上，但是不方便管理和维护，于是就需要一种可以在集群中来管理多台机器上文件的系统，即分布式文件系统。HDFS便是分布式文件系统中的一员。
定义：HDFS（Hadoop Distributed System）：分布式文件系统，用于存储文件，通过目录树来定位文件；构建在分布式集群上，集群中的服务器有各自的角色。
使用场景：适合一次写入，多次读取的场景。适合用来做大数据分析。
HDFS优点：