spark
文章平均质量分 70
CxCo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mesos与yarn简要介绍
Mesos是一个开源的资源管理系统,可以对集群中的资源做弹性管理,目前twitter, apple等公司在大量使用mesos管理集群资源,大家记得apple的siri吗,它的后端便是采用的mesos进行资源管理(自行在网上查找文章:“新一代Siri后端将采用开放源代码平台Mesos”)。国内也有零零散散的公司在使用mesos,比如豆瓣。Mesos是高仿google内部的资源管理系统转载 2016-01-12 11:51:30 · 1876 阅读 · 0 评论 -
理解Spark - RDD(Resilient Distriuted Datasets)
1.简介RDD(Resilient Distributed Datasets)弹性分布式数据集是Spark中的抽象计算模型,相当与Hadoop中的MapReduce模型。相较与传统的分布式计算模型没有很好的利用分布式的内存,而RDD是一种能在分布式下进行内存计算的模型,并且具有很好的容错性。在分布式 迭代计算以及交互式的数据挖掘等算法上(这些算法的特点是,计算中产生的结果会被频繁的重复使用),原创 2016-03-04 17:01:40 · 710 阅读 · 0 评论 -
Spark on Yarn可能遇到的问题
1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。2 防火墙 部署好Spa转载 2016-03-18 11:32:59 · 2484 阅读 · 0 评论 -
spark on yarn 中的延迟调度(delay scheduler)
延迟调度算法思想十分简单,为了实现data locality(即该task所需数据就在其运行的机器上),会尽量将task分布到有其所需数据的机器或者jvm中去,如果机器或者jvm已被占用就进行延迟等待,直到该机器或者jvm可以运行该task或者超过等待时限则将task运行到其他机器上。这个想法基于以下几点:1.往往数据比程序要大得多,分布式上处理的数据都是GB为单位的,将程序放到数据所在机原创 2016-04-07 12:03:01 · 9174 阅读 · 0 评论 -
spark1.6统一内存管理(UnifiedMemoryManager)
从spark1.6开始,引入了新的内存管理方式-----统一内存管理(UnifiedMemoryManager)。在统一内存管理下,spark一个executor中的jvm heap内存被划分成如下图:在开始介绍图中各个部分之前,我们先明确一个概念(我还是以我熟悉spark on yarn来介绍),我们在为Executor申请内存的时候,实际是JVM 的堆(heap)内存。而JVM原创 2016-04-07 17:08:18 · 2176 阅读 · 0 评论 -
Spark on yarn CapacityScheduler中的ResourceCalculator(资源计算器)
首先,是一个实际的问题(为了方便描述考虑一个简单的情况):在spark on yarn上面进行资源申请,我们申请了10个container(每个container都是1G内存,1个core),这是集群中有一个nodemanager,有10G内存,5个core。在默认配置情况下,yarn就有可能将这10个container都发送到这个nodemanager上(即使集群上还有其他nod原创 2016-04-08 18:02:58 · 4064 阅读 · 0 评论
分享