Hadoop学习(二)

Hadoop的结构体系

单节点结构体系

在这里插入图片描述

集群架构分析

在这里插入图片描述

hadoop的特点

  1. Hadoop分布式文件系统
  2. 按需定制MapReduce:map+reduce,大数据量(纯文本)
  3. 优势在于一次写入多次读取(若频繁写入,则不应该使用hadoop)
  4. 写入成本比较高
  5. 高度的数据冗余(副本,默认为3)
  6. 每个节点不需要RAID-独立磁盘冗余阵列(redundant array of independent disk),但是在NameNode是需要raid存储的,DataNode是不需要raid存储的raid就是为了数据的安全可用且快速访问,但是成本还是比较高的
  7. Blocksize较大(128m)data文件过大时么就需要切割,然后均匀的分布在datanode上
  8. 定制节点的位置感知由上面的架构分析,若两个节点交互是需要进程之间的交互的,那么可以选择较近的节点,默认在同一个机架上

补充:RAID-0:Stripe或Striping,数据分散化多个磁盘存储,多个磁盘并行读取,提高数据带宽,安全性很差。2块硬盘
RAID-1:磁盘镜像,互为备份。数据安全性很高,但是成本高,浪费了一般的存储能力。2块硬盘
RAID-10:RAID1 + RAID0,4块盘
RAID-5:介于0和1之间,采用校验存储,放在第三块盘。如果损坏,从第三块盘恢复。

NameNode andDataNode

NameNode

为了维护两张映射表,
table1 :namespace --> block(存储在硬盘上)
table2 : block --> datanode(存储在内存上 实时动态更新的)

  1. 存储的是文件的元数据(不可分割的数据) ,比如目录结构(path)
  2. 运行NameNode的服务器至关重要,只有1个
  3. 只对元数据的增删做日志记录,不对block和文件流做记录
  4. DataNdoe故障时,负责创建更多的副本block
    在这里插入图片描述

DataNode

数据节点负责从客户端的读写请求,数据节点也执行block的创建,删除,复制的指令(来自NameNode)

  1. 存储真实数据
  2. 可以运行在多种文件系统上(ext,NTFS …)
  3. 通知NameNdoe自己有哪些block
  4. NameNdoe在同一机架创建放置一个副本,另一机架放置2个副本

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值