大数据Big Data

本文深入探讨Hadoop,一个用于分布式存储和计算的框架。重点介绍了Hadoop的分布式存储组件HDFS,包括元文件FSImage与edits、文件的写入和读取过程。同时,解析了MapReduce思想,阐述了其在大数据处理中的作用和MapReduce的设计构思。
摘要由CSDN通过智能技术生成

一、hadoop

1. hadoop的定义:hadoop是一个分布式存储和分布式计算的框架。

分布式存储:是一个数据存储技术,将数据存储在多个服务上的(存储单元)磁盘空间中。目前解决的是大量数据存储问题
分布式计算:将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

 2. hadoop的核心组件


       HDFS:分布式存储组件

        MapReduce:分布式计算组件

        Yarn:资源调度管理器

3.架构模型

文件系统核心模块**:

**NameNode**:集群当中的主节点,主要用于管理集群当中的各种元数据

**secondaryNameNode**:主要能用于hadoop当中元数据信息的辅助管理

**DataNode**:集群当中的从节点,主要用于存储集群当中的各种数据

**数据计算核心模块:**

**ResourceManager**:接收用户的计算请求任务,并负责集群的资源分配

**NodeManager**:负责执行主节点APPmaster分配的任务

4.Hadoop 的安装有三种方式



单机模式:直接解压,只支持MapReduce的测试,不支持HDFS,一般不用。

伪分布式模式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值