2017年04月_it小奋

12月 10月 08月 07月 06月 04月 03月 02月

原创 Spark 架构-初识

前言:一直想总结关于Spark架构方面的知识,限于所学,到目前也只是浅尝辄止,一方面受限于自我架构意识的欠缺,其次受限于对Scala语言的理解,总之还在不断的探索,实践,和总结中. 本小结简单阐述下笔者现阶段对Spark 的了解,为后续进一步的深入学习做一些准备,而更多的是思想上的理解,而不是细节.概述:Spark必然听过,现阶段与Hadoop生态系统共同构成大数据的两大阵营,显然Hadoop

2017-04-03 15:01:19 409

原创 Hadoop2.X MR作业流

Hadoop2.X MR作业流情景概述:作为HFDS的高层建筑,MR被设计与在大型分布式文件系统之上的离线数据运算,在对一些运算时效性要求不高的场景中更适合于MR作业,MR在ETL流不同阶段可扮演不同的角色,甚至在某些场景下基于MR的链式操作可完成ETL的整个流程.MR概述:Hadoop MR(Mapper Reduce) 是一个软件架构的实现,用户处理大批量的的离线数据作业,运行于大型集

2017-04-02 18:49:44 1110

原创 Hadoop2.x YARN架构

Hadoop 2.X YARN架构概述:Hadoop2.X 摒弃了1.X中JobTracker扮演的资源调度角色,改用具有更具通用性的YARN 资源管理框架,而YARN本身更是开源集群资源管理的典范.资源调度: | 切割资源管理和作业调度,监控到不同的守护进程中[daemons],YARN提供了一个全局的资源管理器ResourceManager(RM),每一个应用程序有自己独立的Ap

2017-04-02 16:51:03 583

原创 Hadoop2.X HDFS架构

概述:DHFS是一个基于廉价硬件基础设施的高度容错性的分布式文件系统.HDFS由Apache Nutch项目演化而来.现阶段HDFS作为大数据存储解决方案,拥有众多的受益企业和个人,学习势在必行. HDFS目标:| 硬件故障是常态.对应快速故障恢复和转移.| 流式数据接收,高吞吐量而不是低延迟下的实时性要求| 大数据集. 通常考虑的G字节的存储级别.数以百计的集群,但节点

2017-04-02 15:45:00 4103