大数据相关知识点笔记

本文详细介绍了Hadoop大数据系统的核心组成部分,包括分布式存储HDFS和分布式计算MapReduce。HDFS通过NameNode和DataNode实现数据的管理和存储,MapReduce则提供了数据并行计算的模型。此外,还概述了搭建Hadoop系统的基本步骤,包括服务器配置、JDK安装、Hadoop环境变量设置及集群启动。
摘要由CSDN通过智能技术生成

大数据的核心:
1.分布式存储
2.分布式计算

hadoop分布式系统的两大核心:
1.分布式存储 HDFS
—NameNode : 文件管理
—DataNode: 文件存储
2.分布式计算 MapReduce
—Map:任务的分解
—Reduce:结果的汇总

HDFS分布式文件系统:
hdfs是一个高度容错性的分布式文件系统,能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
()NameNode
可以看作是分布式文件系统中的管理者,存储文件系统的meta-data,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。
(
)DataNode
是文件存储的基本单元。它存储文件块在本地文件系统中,保存了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给NameNode。

HDFS具体操作
()文件写入:
1.Client向NameNode发起文件写入的请求
2.NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
3.Client将文件划分为多个文件块,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
(
)文件读取:
1.Client向NameNode发起文件读取的请求。
2.NameNode返回文件存储的DataNode的信息。
3.Client读取文件信息

MapReduce是一种编程模型,用于大规模数据集的并行运算。
Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值