laiwenqiang的专栏

It’s fucking miracle.

Spark之任务调度(DagScheduler & TaskScheduler)

两种Scheduler 在创建SparkContext对象的时候,一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种: TaskScheduler(是低级的调度器接口)。TaskScheduler负责实际每个具体Task的物理调度。DagSched...

2015-11-25 09:01:00

阅读数:4363

评论数:0

Spark之Job调度模式

用户通过不同的线程提交的Job可以并发运行,但是受到资源的限制。Job到调度池(pool)内申请资源,调度池会根据工程的配置,决定采用哪种调度模式。 FIFO模式      在默认情况下,Spark的调度器以FIFO(先进先出)方式调度Job的执行。每个Job被切分为多个Stage...

2015-11-18 16:59:43

阅读数:2428

评论数:0

Spark之IO机制

传统IO和SparkIO区别 传统的数据存在单个计算机中,数据量少。Spark的数据存储在集群中,数据量巨大。 Spark需要考虑本地主机的IO开销,还需要顾虑到不同主机之间的传输开销。 IO序列化 目的: 进程间通信:不同节点之间进行数据传输。数据持久化存储到磁盘:本地...

2015-10-24 14:33:46

阅读数:749

评论数:0

Spark 调优 (英文原文:Tuning Spark)

因为大部分Spark程序都具有“内存计算”的天性,所以集群中的所有资源:CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。通常情况下, 如果数据完全加载到内存那么网络带宽就会成为瓶颈,但是你仍然需要对程序进行优化,例如采用序列化的方式保存RDD数据(Resilient Distribut...

2015-10-23 14:50:43

阅读数:591

评论数:0

Spark读取日志,统计每个service所用的平均时间

获取log日志,每个service以“#*#”开头。统计每个service所需的平均时间。 import java.io.{File, PrintWriter} import org.apache.spark.{SparkContext, SparkConf} object SimpleA...

2015-07-06 17:08:55

阅读数:2803

评论数:0

sparkSQL1.1入门

http://blog.csdn.net/book_mmicky/article/details/39288715 2014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源...

2015-04-27 15:23:29

阅读数:918

评论数:0

Spark&Spark性能调优实战

Spark特别适用于多次操作特定的数据,分mem-only和mem & disk。其中mem-only:效率高,但占用大量的内存,成本很高;mem & disk:内存用完后,会自动向磁盘迁移,解决了内存不足的问题,却带来了数据的置换的消费。Spark常见的调优工具有nman、J...

2015-04-27 10:41:24

阅读数:424

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭