【大数据学习记录】Hadoop入门知识回忆总结

Hadoop介绍

狭义上指的是一款开源软件,用Java实现

核心组件

  1. Hadoop HFDS(分布式文件存储系统)
    作用:解决海量数据存储问题
  2. Hadoop YARN(集群资源管理和任务调度框架)
    作用:解决资源任务调度
  3. Hadoop MapReduce(分布式计算框架)
    作用:解决海量数据计算

Hadoop集群概述

Hadoop集群 = Hadoop集群 + YARN集群
两个集群 逻辑上分离,通常物理上在一起

两个集群互相之间没有依赖、互不影响(逻辑)
某些角色进程往往部署在同一台物理服务器上(物理)

都是标准的 主从架构 集群

HDFS集群

HDFS集群 = 主角色(NameNode)+ 从角色(DataNode)+ 主角色辅助角色(SecondaryNameNode)

引入

文件系统
定义
  1. 是一种 存储和组织数据 的方法,实现了数据的存储、分级组织、访问和获取等操作
  2. 使用 树形目录的抽象概念 代替了硬盘等物理设备使用数据块的概念。
  3. 通常使用硬盘、光盘等存储设备,并 维护文件在设备中的物理位置
特点
  1. 带有抽象的目录树结构,从根目录开始往下蔓延
  2. 树中结点分为目录与文件两类
  3. 节点路径唯一
数据 与 元数据

数据:只存储的内容本身
元数据:解释性数据,一般指文件大小、最后修改时间、属性等

海量数据存储遇到的问题
  1. 性能低:单节点I/O性能 瓶颈无法逾越,难以支撑海量数据的 高并发吞吐 场景。
  2. 可拓展性差:无法实现快速部署和弹性扩展,动态扩容、缩容成本高,技术实现难度大。

HDFS简介

  1. 主要 解决大数据如何存储 的问题,分布式意味着HDFS是 横跨在多台计算机 上的存储系统。
  2. 能够在普通硬件上运行的分布式文件系统,高度容错,适用于具有大数据集的应用程序,十分适用于存储大型数据
  3. 使用多台计算机存储文件,并且提供 统一的访问接口
    在这里插入图片描述

HDFS设计目标

  1. 故障检测及快速恢复
  2. HDFS上的应用以 流式 读取数据,HDFS被设计成用于 批处理,而不是用户交互的,注重数据访问的高吞吐量
  3. 支持大文件,提供很高的聚合数据带宽
  4. 一次写入,多次读取
  5. 移动计算的代价比移动数据的代价低
  6. 平台轻松移植

HDFS整体概述

在这里插入图片描述

主从架构
  1. HDFS集群是标准的master/slave主从架构集群
  2. 一个HDFS集群是由一个NameNode和一定数目的DataNode组成
  3. NameNode是主节点,DataNode是从节点,共同协调完成服务
分块存储

文件在物理上分块存储(block),默认大小128M,不足128M也是一块。
块大小可以改变

副本机制

文件中的所有block都有副本。默认值是3(包含自身)。

元数据记录

HDFS中,NameNode管理的数据有两类:

  1. 文件自身属性信息

名称、权限······

  1. 文件块位置映射信息

文件块和DateNode之间的映射信息

namespace 抽象统一的目录树结构

支持层次型文件组织结构
NameNode负责维护文件系统的namespace名称空间
HDFS给客户端提供统一的抽象目录树

数据块存储

文件的各个block的具体存储管理由DataNode节点承担
每个block都可以在多个DataNode上存储

HDFS核心属性

分布式存储

问题:数据量大,单机存储遇到瓶颈
解决:

  1. 单机纵向扩展
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值