hadoop生态圈
1、common
2、hdfs—分布式存储(多台节点协同工作)
2.1 角色—NN DN SNN
2.2 工作机制、
读写机制----block块(1.x 64M 2.x 128M)
为了数据的安全—备份机制
为了增强传输效率----pipeline管道机制
2.3 NN工作太繁忙,为了节省他的时间----SNN
只是热备,不能替代NN-----把NN中的元数据备份到磁盘上(edits.log fsimage))
启动的条件
安全模式
2.4 节点之间的通信—心跳机制
3、mapreduce(思想:分久必合,合久必分------原则:计算找数据)
3.1 map----split切片 1splite=1block=1map----但是,为了保证数据的完整性 splite约等于block
为了增加一个map的并行度,降低split的大小 2splite=1block=2map
3.2 shuffle
3.2.1 shuffle write
1、split切出来的文件(k v p(分区号))
2、将切割的文件写入到buffer缓冲池(默认100M)分为80+20,当写入的数据超过80之后,将这80进行合并排序,将排序过程中的数据写入到20里面
3、80M数据在处理完成之后,会溢写到磁盘
4、溢写到磁盘之后会进行一次大的combiner(聚合)
3.2.1 shuffle read
1、reduce会将磁盘中数据fetch(拉取)—内存(默认1G)分为70+30,当写入的数据超过70之后,将这70进行合并排序,将排序过程中的数据写入到30里面
2、进行聚合排序
3.3 reduce–大合并
将从map传过来的数据进行聚合,根据业务需求合并形成我们需要的文件
4、yarn
1.x mapreduce自己管理资源信息,(maptask和reducetask—计算线程)—jobtracher(负责资源分配)
为了解决资源冲突与浪费—因为资源管理(yarn)—2.x版本
-----
菜鸟进阶(hadoop生态圈的简单知识点串联)
最新推荐文章于 2024-09-11 23:03:14 发布