全面了解大数据“三驾马车”的开源实现

最新推荐文章于 2024-07-31 11:48:18 发布

大数据Arry

最新推荐文章于 2024-07-31 11:48:18 发布

阅读量6.4k

点赞数

分类专栏：大数据资讯大数据人工智能互联网资讯文章标签：大数据数据分析程序员编程语言

本文链接：https://blog.csdn.net/arry001/article/details/89765154

版权

本文详细介绍了Google大数据的三驾马车GFS、MapReduce和BigTable的开源实现，即HDFS、Hadoop MapReduce和HBase。HDFS作为分布式文件系统，实现数据的分片和冗余存储；MapReduce提供了一种编程模型和计算框架，用于处理大规模数据；HBase则为海量数据提供了实时访问的存储解决方案，实现数据的分布式管理和伸缩性。

摘要由CSDN通过智能技术生成

Google 大数据“三驾马车”的第一驾是 GFS(Google 文件系统)，而 Hadoop 的第一个产品是 HDFS，可以说分布式文件存储是分布式计算的基础，也可见分布式文件存储的重要性。

Google File System(GFS)的开源实现：HDFS

HDFS 是在一个大规模分布式服务器集群上，对数据分片后进行并行读写及冗余存储。

在这里我还是要推荐下我自己建的大数据学习交流qq裙：522189307 ，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

从图中你可以看到 HDFS 的关键组件有两个，一个是 DataNode，一个是 NameNode。

DataNode 负责文件数据的存储和读写操作，HDFS 将文件数据分割成若干数据块(Block)，每个 DataNode 存储一部分数据块，这样文件就分布存储在整个 HDFS 服务器集群中。应用程序客户端(Client)可以并行对这些数据块进行访问，从而使得 HDFS 可以在服务器集群规模上实现数据并行访问，极大地提高了访问速度。

NameNode 负责整个分布式文件系统的元数据(MetaData)管理，也就是文件路径名、数据块的 ID 以及存储位置等信息，相当于操作系统中文件分配表(FAT)的角色。HDFS 为了保证数据的高可用，