醉吟空尘-CSDN博客

原创 Streaming笔记

Streaming MapReduce运行流程Hadoop将map阶段的输入通过管道传递给其他语言编写的map脚本，map脚本将处理后的结果输出给Hadoop进行shuffle，Hadoop再将shuffle的结果也就是reduce阶段的输入通过管道再传递给其他语言编写的reduce脚本，reduce脚本将处理后的结果再输出给Hadoop进行hdfs写入。...

2018-12-16 10:34:56 127

原创 YARN架构设计及调度策略

架构设计YARN 总体上仍然是 Master/Slave 结构，在整个资源中，ResourceManager 为 Master，NodeManager 为 Slave。YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container等几个组件构成。概略介绍：Master/Slave 结构，1 个 ResourceMana...

2018-12-15 12:02:17 270

原创关于mr的一些问题

1.影响map和reduce生成个数的数据因子有哪些？map个数的影响因子1）map输入文件的总大小2）block块大小block块越大，块数越少，会降低hdfs元数据压力，并行度降低，处理单个block块的效率越高。block块越小，块数越多，会导致hdfs压力大，并行度会提高。3）文件大小与block越接近越好，若太小，会导致所占block元数据过多，给NameNode造...

2018-12-15 01:59:06 1116

原创 MapReduce二次排序

工作流程：将Map端的<key,value>组合成新的key，即newkey。value值保持不变。Map端输出结构为<newkey,value>=<(key,value),value>。按newkey中的key分区，其value排序。总结：相对于一次排序来说，二次排序改变了Map端的输出结构，并按newkey中的key分区然后排序，之后直接进入s...

2018-12-14 11:37:42 115

原创 MapReduce总结

MapReduce运行流程：1) 首先对输入数据源进行切片2) master 调度 worker 执行 map 任务3) worker 读取输入源片段4) worker 执行 map 任务，将任务输出保存在本地5) master 调度 worker 执行 reduce 任务，reduce worker 读取 map 任务的输出文件6) 执行 reduce 任务，将任务输出保存到 H...

2018-12-14 02:39:54 359

原创 HDFS学习笔记

1. HDFS特点低成本HDFS实现的分布式存储实际是由数百个甚至数千个服务器提供的（目前Hadoop已经实现了两千多个节点的部署），这比单独使用一台大型服务器在遇到故障时的成本付出要少的多，现在如果某个服务器发生故障，我们只需要付出一台价廉服务器的成本。高容错由于HDFS是众多服务器一起实现分布存储，每个数据文件都有2个冗余备份，也就是每个数据文件都将被存储3次，如果存数据的某个...

2018-12-13 12:01:49 260

原创 Hadoop简介

·Hadoop核心组件（Hadoop core）核心组件包括：HDFS、MapReduce和Yarn。常用组件：HBase、Hive、Streaming、Zookeeper等。·组件介绍HDFS:分布式文件系统MapReduce：分布式离线计算框架Yarn：资源调度与任务管理HBase:基于列式存储模型的分布式实时数据库Hive：数据仓库Zookeeper：分布式协同服务·Ha...

2018-12-12 20:50:02 72

qq_42795601的博客