大数据相关知识点笔记

最新推荐文章于 2024-02-26 14:33:15 发布

DYY^O^

最新推荐文章于 2024-02-26 14:33:15 发布

阅读量294

点赞数

分类专栏： hadoop 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/ldxy22/article/details/107593301

版权

本文详细介绍了Hadoop大数据系统的核心组成部分，包括分布式存储HDFS和分布式计算MapReduce。HDFS通过NameNode和DataNode实现数据的管理和存储，MapReduce则提供了数据并行计算的模型。此外，还概述了搭建Hadoop系统的基本步骤，包括服务器配置、JDK安装、Hadoop环境变量设置及集群启动。

摘要由CSDN通过智能技术生成

大数据的核心：
1.分布式存储
2.分布式计算

hadoop分布式系统的两大核心:
１.分布式存储 HDFS
—NameNode : 文件管理
—DataNode: 文件存储
２.分布式计算 MapReduce
—Map：任务的分解
—Reduce：结果的汇总

HDFS分布式文件系统：
hdfs是一个高度容错性的分布式文件系统，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。
()NameNode
可以看作是分布式文件系统中的管理者，存储文件系统的meta-data，主要负责管理文件系统的命名空间，集群配置信息，存储块的复制。
()DataNode
是文件存储的基本单元。它存储文件块在本地文件系统中，保存了文件块的meta-data，同时周期性的发送所有存在的文件块的报告给NameNode。

HDFS具体操作
()文件写入：
1.Client向NameNode发起文件写入的请求
2.NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。
3.Client将文件划分为多个文件块，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。
()文件读取：
1.Client向NameNode发起文件读取的请求。
2.NameNode返回文件存储的DataNode的信息。
3.Client读取文件信息

MapReduce是一种编程模型，用于大规模数据集的并行运算。
Map(映射)和Reduce(化简)，采用分而治之思想，先把任务分发到集群的

最低0.47元/天解锁文章

DYY^O^

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据相关知识点笔记

大数据的核心：1.分布式存储2.分布式计算hadoop分布式系统的两大核心:１.分布式存储 HDFS—NameNode : 文件管理—DataNode: 文件存储２.分布式计算 MapReduce—Map：任务的分解—Reduce：结果的汇总HDFS分布式文件系统：hdfs是一个高度容错性的分布式文件系统，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。()NameNode可以看作是分布式文件系统中的管理者，存储文件系统的meta-data，主要负责管理文件系统的命名空间
复制链接

扫一扫

专栏目录