Spark
Mayny
这个作者很懒,什么都没留下…
展开
-
Spark知识点
1.Spark架构分布式spark应用中的组件 在分布式环境下,Spark集群采用的是主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点。与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的执行器节点进行通信,它们也都作为独立的Java进行运行。驱动器节点和所有的执行...原创 2018-07-13 16:28:32 · 760 阅读 · 0 评论 -
Spark动态资源分配
cloudera manager默认是开启了spark动态资源分配的,即spark.dynamicAllocation,enable=truecloudera manager默认的动态配置参数似乎不是很合理,比如spark.dynamicAllocation.schedulerBacklogTimeout这个参数的默认值是1秒,即当任务调度延迟超过1秒的时候,会请求增加executor,而且是...原创 2018-10-10 14:54:48 · 2276 阅读 · 0 评论 -
Spark RDD
转自:https://blog.csdn.net/u011564172/article/details/53310530概要 RDD是为了处理迭代算法和数据发掘应运而生的,keep数据在内存,显著提升性能。 RDD基于lineage实现容错,而不是shared state的update。简介 背景 原有的并行框架MapRe...原创 2018-07-18 14:31:00 · 277 阅读 · 0 评论 -
Spark基本架构及原理
转自:http://www.cnblogs.com/tgzhu/p/5818374.html Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark...原创 2018-07-23 19:32:00 · 509 阅读 · 0 评论