自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Streaming笔记

Streaming MapReduce运行流程Hadoop将map阶段的输入通过管道传递给其他语言编写的map脚本,map脚本将处理后的结果输出给Hadoop进行shuffle,Hadoop再将shuffle的结果也就是reduce阶段的输入通过管道再传递给其他语言编写的reduce脚本,reduce脚本将处理后的结果再输出给Hadoop进行hdfs写入。...

2018-12-16 10:34:56 127

原创 YARN架构设计及调度策略

架构设计YARN 总体上仍然是 Master/Slave 结构,在整个资源中,ResourceManager 为 Master,NodeManager 为 Slave。YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container等几个组件构成。概略介绍:Master/Slave 结构,1 个 ResourceMana...

2018-12-15 12:02:17 270

原创 关于mr的一些问题

1.影响map和reduce生成个数的数据因子有哪些?map个数的影响因子1)map输入文件的总大小2)block块大小block块越大,块数越少,会降低hdfs元数据压力,并行度降低,处理单个block块的效率越高。block块越小,块数越多,会导致hdfs压力大,并行度会提高。3)文件大小与block越接近越好,若太小,会导致所占block元数据过多,给NameNode造...

2018-12-15 01:59:06 1116

原创 MapReduce二次排序

工作流程:将Map端的<key,value>组合成新的key,即newkey。value值保持不变。Map端输出结构为<newkey,value>=<(key,value),value>。按newkey中的key分区,其value排序。总结:相对于一次排序来说,二次排序改变了Map端的输出结构,并按newkey中的key分区然后排序,之后直接进入s...

2018-12-14 11:37:42 115

原创 MapReduce总结

MapReduce运行流程:1) 首先对输入数据源进行切片2) master 调度 worker 执行 map 任务3) worker 读取输入源片段4) worker 执行 map 任务,将任务输出保存在本地5) master 调度 worker 执行 reduce 任务,reduce worker 读取 map 任务的输出文件6) 执行 reduce 任务,将任务输出保存到 H...

2018-12-14 02:39:54 359

原创 HDFS学习笔记

1. HDFS特点低成本HDFS实现的分布式存储实际是由数百个甚至数千个服务器提供的(目前Hadoop已经实现了两千多个节点的部署),这比单独使用一台大型服务器在遇到故障时的成本付出要少的多,现在如果某个服务器发生故障,我们只需要付出一台价廉服务器的成本。高容错由于HDFS是众多服务器一起实现分布存储,每个数据文件都有2个冗余备份,也就是每个数据文件都将被存储3次,如果存数据的某个...

2018-12-13 12:01:49 260

原创 Hadoop简介

·Hadoop核心组件(Hadoop core)核心组件包括:HDFS、MapReduce和Yarn。常用组件:HBase、Hive、Streaming、Zookeeper等。·组件介绍HDFS:分布式文件系统MapReduce:分布式离线计算框架Yarn:资源调度与任务管理HBase:基于列式存储模型的分布式实时数据库Hive:数据仓库Zookeeper:分布式协同服务·Ha...

2018-12-12 20:50:02 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除