大数据
文章平均质量分 68
qianbing11
萌新
展开
-
浅谈Storm原理(新手向)
前言:storm作为流式实时计算的代表之一,它的地位对于流式计算相当于hadoop在离线计算中一般。抛开编码过程,本文就来聊聊storm的构造和工作原理。一.Storm的核心组件Nimbus:负责资源分配和任务调度。(充当集群中master的角色)。Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。(充当slave角色)---可以通...原创 2018-09-04 21:13:39 · 473 阅读 · 0 评论 -
超简单读懂mapreduce的工作过程
Tip:本文适合编写过mapreduce程序,但不知道它工作原理的朋友阅读,它会让你在很短时间内了解整个过程。本文分为map端 和reduce端两张图讲解,请放大图片来看。一.Map task1.由程序内的InputFormat(默认实现类TextInputFormat)来读取外部数据,它会调用RecordReader(它的成员变量)的read()方法来读取,返回k,v键值对。...原创 2018-09-04 00:25:27 · 10218 阅读 · 0 评论 -
spark基于akka一个任务通讯的简单流程
本文介绍spark通讯的简单流程,通过本文也可以了解简单的spark任务执行流程 1.Master 启动成功后(开启线程定时检查Worker存活与否) ,启动Worker,这时候Worker与Master间进行通讯。通讯内容:向Master注册信息(包含一些自己电脑的配置情况,方便Master后续分配任务)之后向 Master定时发送心跳包 用以报活。2.当用户提交任务时,机器会启...原创 2018-09-29 17:14:25 · 436 阅读 · 0 评论 -
Spark学习笔记(一):Spark简介和RDD
前言:这是Spark理论的学习笔记,代码和操作极少,请自行熟悉代码。这篇幅会越来越长,并且不断深入,没什么意外的话笔者会在空闲时候慢慢进行更新。如果有错误的地方,请大佬指出让我改进,感激不尽!1.Spark概述1.1简介Spark是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据分布式计算框架。基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸...原创 2018-09-30 02:06:39 · 306 阅读 · 0 评论