菜鸟进阶(hadoop生态圈的简单知识点串联)

最新推荐文章于 2024-09-11 23:03:14 发布

傷訫

最新推荐文章于 2024-09-11 23:03:14 发布

阅读量194

点赞数

本文链接：https://blog.csdn.net/doubimen/article/details/92800251

版权

hadoop生态圈
1、common

2、hdfs—分布式存储（多台节点协同工作）
  2.1 角色—NN DN SNN
  2.2 工作机制、
   读写机制----block块（1.x 64M    2.x 128M）
   为了数据的安全—备份机制
   为了增强传输效率----pipeline管道机制
  2.3 NN工作太繁忙，为了节省他的时间----SNN
   只是热备，不能替代NN-----把NN中的元数据备份到磁盘上（edits.log fsimage））
   启动的条件
   安全模式
  2.4 节点之间的通信—心跳机制


3、mapreduce（思想：分久必合，合久必分------原则：计算找数据）
  3.1 map----split切片    1splite=1block=1map----但是，为了保证数据的完整性 splite约等于block
        为了增加一个map的并行度，降低split的大小   2splite=1block=2map

  3.2 shuffle
   3.2.1 shuffle write
    1、split切出来的文件（k v p（分区号））
    2、将切割的文件写入到buffer缓冲池（默认100M）分为80+20，当写入的数据超过80之后，将这80进行合并排序，将排序过程中的数据写入到20里面
    3、80M数据在处理完成之后，会溢写到磁盘
    4、溢写到磁盘之后会进行一次大的combiner（聚合）

   3.2.1 shuffle read
    1、reduce会将磁盘中数据fetch（拉取）—内存（默认1G）分为70+30，当写入的数据超过70之后，将这70进行合并排序，将排序过程中的数据写入到30里面
    2、进行聚合排序

  3.3 reduce–大合并
   将从map传过来的数据进行聚合，根据业务需求合并形成我们需要的文件

4、yarn
  1.x mapreduce自己管理资源信息，（maptask和reducetask—计算线程）—jobtracher（负责资源分配）
  为了解决资源冲突与浪费—因为资源管理（yarn）—2.x版本
  -----