【Spark】
文章平均质量分 62
laiwenqiang
世间最痛苦的事,莫过于泯然于众人,默默无闻。
展开
-
Spark&Spark性能调优实战
Spark特别适用于多次操作特定的数据,分mem-only和mem & disk。其中mem-only:效率高,但占用大量的内存,成本很高;mem & disk:内存用完后,会自动向磁盘迁移,解决了内存不足的问题,却带来了数据的置换的消费。Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析:1、场景:精确客户群对一个容量为300g的客转载 2015-04-27 10:41:24 · 622 阅读 · 0 评论 -
sparkSQL1.1入门
http://blog.csdn.net/book_mmicky/article/details/392887152014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源码编译和部署包生成 。 Spark1.1.0中变化较大是sparkSQL和MLlib转载 2015-04-27 15:23:29 · 1106 阅读 · 0 评论 -
Spark读取日志,统计每个service所用的平均时间
获取log日志,每个service以“#*#”开头。统计每个service所需的平均时间。import java.io.{File, PrintWriter}import org.apache.spark.{SparkContext, SparkConf}object SimpleApp { def main(args: Array[String]) { Sys原创 2015-07-06 17:08:55 · 3501 阅读 · 0 评论 -
Spark 调优 (英文原文:Tuning Spark)
因为大部分Spark程序都具有“内存计算”的天性,所以集群中的所有资源:CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。通常情况下, 如果数据完全加载到内存那么网络带宽就会成为瓶颈,但是你仍然需要对程序进行优化,例如采用序列化的方式保存RDD数据(Resilient Distributed Datasets),以便减少内存使用。该文章主要包含两个议题:数据序列化和内存优化,数据序列化不转载 2015-10-23 14:50:43 · 826 阅读 · 0 评论 -
Spark之IO机制
传统IO和SparkIO区别传统的数据存在单个计算机中,数据量少。Spark的数据存储在集群中,数据量巨大。Spark需要考虑本地主机的IO开销,还需要顾虑到不同主机之间的传输开销。IO序列化目的:进程间通信:不同节点之间进行数据传输。数据持久化存储到磁盘:本地节点将对象写入磁盘。作用:无论是内存或者磁盘中的RDD含有的对象存储,还是节点间的传输数据,都原创 2015-10-24 14:33:46 · 1105 阅读 · 0 评论 -
Spark之Job调度模式
用户通过不同的线程提交的Job可以并发运行,但是受到资源的限制。Job到调度池(pool)内申请资源,调度池会根据工程的配置,决定采用哪种调度模式。FIFO模式 在默认情况下,Spark的调度器以FIFO(先进先出)方式调度Job的执行。每个Job被切分为多个Stage。第一个Job优先获取所有可用的资源,接下来第二个Job再获取剩余资源。以此类推,如果第一个Job并没原创 2015-11-18 16:59:43 · 5525 阅读 · 0 评论 -
Spark之任务调度(DagScheduler & TaskScheduler)
两种Scheduler在创建SparkContext对象的时候,一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种:TaskScheduler(是低级的调度器接口)。TaskScheduler负责实际每个具体Task的物理调度。DagScheduler(是高级的调度)。DAGScheduler负责将Task拆分成不同Stage的具有依赖关系(包原创 2015-11-25 09:01:00 · 5624 阅读 · 0 评论