hadoop day04 （HDFS）

姚circle

已于 2022-11-28 11:10:35 修改

阅读量237

点赞数

分类专栏： hadoop 文章标签： hadoop 分布式大数据

于 2022-11-17 09:13:34 首次发布

本文链接：https://blog.csdn.net/qq_53822083/article/details/127881018

版权

hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

HDFS ：负责储存数据
- 文件进行拆分文件块
- 存储拆分文件块
  
  补充： hdfs主要存储文件大文件不是说不能存储小文件
  存储小文件影响hdfs 性能
block 块：
- 文件拆分来的：按照块大小进行拆分
- 属性
  - 块大小 128M blocksize
  - 块的副本数
    - 伪分布式 1
    - 完全分布式 3
      本地文件大小：260M
      块大小：128M
  - 例
    - 1. 一缸水 260L
      一个瓶子 128L
      第一个瓶子 128L
      第二个瓶子 128L
      第三个瓶子 4L
    - 2. 160M 2个副本问：
      ①文件拆分了块正在hdfs上存了多少块
      160M： 128M
      32M
      1+1= 2块 * 2 = 4块
      ②实际存储到hdfs存储的大小是多少
      160M * 2 = 320 M
大数据处理
- 1.input
  hdfs一些文件
  fs,open
- 2.处理
- 3.output
  1. 打印到控制台
  2. 输出到hdfs上
HDFS架构设计
三个角色：namenode 名称节点 nn
- 1.文件名称
- 2.文件的目录结构
- 3.文件的属性、权限、创建时间、副本数据
- 4.blockmap块映射
  不会永久持久化这个储存
  是通过集群启动和运行是 dn定期发送 blockreprot给nn来进行
  动态的维护这种映射关系 mem
  一个文件被切分多个数据块副本数 =》数据节点
  数据块对应分布在哪些节点上进行储存
- 作用：管理文件系统的命名空间其实就是维护文件系统树的文件和文件夹
  是以两种文件
  - 镜像文件 fsimage
  - 编辑日志文件 editlogs
secondery namenode 第二名称节点 snn
fsimage + 编辑日志文件定期拿来进行合并
datanode 数据节点 dn
- 1.存储数据块和数据块的校验
  作用：1.每隔3s发送一次心跳给nn
  2.每隔一定时间发送blockreport
hdfs架构设计
- 1.hdfs
  主从架构
  生产上两个NameNode
- 2.NameNode
  - 文件元数据
    - 文件的名称、权限、副本
    - 文件路径、文件的信息
  - 对外提供服务
  - 负责映射块文件
- 3.DataNode
  - 每个节点都有这个进程
  - 负责存储数据块
  - 负责文件的读写