Spark源码分析之Worker

Spark支持三种模式的部署:YARN、Standalone以及Mesos。本篇说到的Worker只有在Standalone模式下才有。Worker节点是Spark的工作节点,用于执行提交的作业。我们先从Worker节点的启动开始介绍。   Spark中Worker的启动有多种方式,但是最终调用...

2015-10-18 19:05:31

阅读数:229

评论数:0

Spark1.0.0属性配置

1:Spark1.0.0属性配置方式       Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。       在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 SparkConf方式可以直接将属性值传递到SparkConte...

2015-10-18 18:54:40

阅读数:134

评论数:0

Spark技术内幕:Executor分配详解

当用户应用new SparkContext后,集群就会为在Worker上分配executor,那么这个过程是什么呢?本文以Standalone的Cluster为例,详细的阐述这个过程。序列图如下: 1. SparkContext创建TaskScheduler和DAG Scheduler S...

2015-10-18 18:50:27

阅读数:379

评论数:0

Spark1.0.x入门指南

Spark1.0.x入门指南 目录[-] Spark1.0.x入门指南1 节点说明2 安装HDFS3 Spark部署3.1 Spark on Yarn3.1.1 配置3.1.2 测试3.2 Spark Standalone3.2.1 配置3.2.2 启动3.2.3 测试4 spar...

2015-10-18 18:48:33

阅读数:330

评论数:0

从零开始学习,Apache Spark源码走读(一)

概要 本文以wordCount为例,详细说明Spark创建和运行job的过程,重点是在进程及线程的创建。 实验环境搭建 在进行后续操作前,确保下列条件已满足。 下载spark binary 0.9.1 安装scala 安装sbt 安装java 启动spark-shell ...

2015-05-06 13:12:30

阅读数:415

评论数:0

spark 案例集群测试整理

时间:20150210 工作过程:今天打算使用spark 自带的案例sparkpi 对集群进行测试,主要向了解集群启动过程及机器的负载情况。没想到问题还还真不少,感谢群友,特别是hali 支持。 主要的问题有3个: 1.测试spark 集群与local 运行方式使用的差别及集群测试时Ip ...

2015-05-06 12:18:37

阅读数:358

评论数:0

spark开发指南

目录 [−] 简介接入Spark初始化Spark 使用shell 弹性分布式数据集RDD 并行集合(Parallelized Collections)外部数据集(External Datasets)RDD 的操作 基础操作将function对象传给Spark使用键值对...

2015-04-27 14:45:16

阅读数:466

评论数:0

spark快速入门

目录 [−] 使用Spark进行交互式分析 基本操作更多的RDD操作缓存 独立应用深入了解 本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者Pytho...

2015-04-27 14:43:42

阅读数:430

评论数:0

spark配置

目录 [−] Spark属性动态加载Spark属性查看Spark属性可用的属性 应用属性运行时环境Runtime EnvironmentShuffle BehaviorSpark UICompression and SerializationExecution BehaviorNe...

2015-04-27 14:41:54

阅读数:920

评论数:0

Spark Configuration(Spark配置)

Spark提供了三个位置来配置系统: Spark Properties(Spark 属性)控制大多数 application 参数,并且可以使用 SparkConf 对象设置通过配置每个节点上的 conf/spark-env.sh 脚本,可以配置每台机器的环境变量,如 ip 地址日志可以通过...

2015-04-18 17:29:20

阅读数:274

评论数:0

Spark RDD:弹性分布式数据集

RDD是只读的、分区记录的集合一个RDD的生成只有两种途径: 基于内存集合或稳定物理存储中的数据集执行确定性操作通过在已有的RDD上执行转换操作 RDD具有自动容错、位置感知和可伸缩性特点RDD不需要物化,RDD通过Lineage来重建丢失的分区:一个RDD中包含了如何从其他RDD衍生所必...

2015-04-18 16:17:42

阅读数:486

评论数:0

spark发展与未来

前言 现今Spark正是风头正劲时,Spark本是UCBerkeley的AMPLab诞生的项目,后来捐赠给了Apache来管理源码和后续发展。今年从Apache孵化器终于孵化出了1.0版本。其对大数据的支持从内存计算和流处理,到交互式查询,一直到图计算和机器学习,可谓摆开了架势、拉长了战线,...

2015-04-18 14:12:09

阅读数:398

评论数:0

spark学习资料

(一)spark 相关安装部署、开发环境(二)spark 架构、原理与编码(三)spark 监控与管理(四)YARN & spark(五)spark 数据平台架构(六)spark 应用与实践(七)spark 机器学习实践(八)Scala 学习指北(九)Spark book附: (一)...

2015-04-18 14:07:10

阅读数:548

评论数:0

spark基础学习

1背景介绍 现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datase...

2015-04-17 17:56:57

阅读数:372

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭