![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
祝威廉
这个作者很懒,什么都没留下…
展开
-
Spark Tungsten-sort Based Shuffle 分析
Tungsten-sort 算不得一个全新的shuffle 方案,它在特定场景下基于类似现有的Sort Based Shuffle处理流程,对内存/CPU/Cache使用做了非常大的优化。带来高效的同时,也就限定了自己的使用场景。如果Tungsten-sort 发现自己无法处理,则会自动使用 Sort Based Shuffle进行处理。原创 2016-01-02 10:06:20 · 3334 阅读 · 0 评论 -
Spark Streaming 妙用之实现工作流调度器
之前有说过要设计一个工作流调度器。开发一个完善的工作流调度器应该并不是一件简单的事情。但是通过Spark Streaming(基于Transfomer架构的理念),我们可能能简化这些工作。我在这块并没有什么经验,这只是一个存在于脑海中的东西。下面是Azkaban的架构图:也就是说要搭建一个稳定可靠的Azkaban的工作流调度器,你可能需要两台 互为主备MySQL两台Executor Serve原创 2016-02-14 16:59:09 · 1867 阅读 · 0 评论 -
Spark Streaming 1.6 流式状态管理分析
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。关于状态管理在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了。而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式原创 2016-02-14 16:58:08 · 1649 阅读 · 6 评论 -
Spark 1.6 内存管理模型( Unified Memory Management)分析
2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做调优。前言新的内存模型是在这个Jira提出的,JIRA-10000,对应的设计文档在这:[unified-memory-management](https://issues.apache.org/jira/secure/att原创 2016-01-09 20:09:54 · 4264 阅读 · 2 评论 -
Spark sc.textFile(...).map(...).count() 执行完整流程
本文介绍下Spark 到底是如何运行sc.TextFile(…).map(….).count() 这种代码的,从driver端到executor端。引子今天正好有人在群里问到相关的问题,不过他的原始问题是: 我在RDD里面看到很多 new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF)),但是我找不到原创 2016-01-22 21:54:04 · 5706 阅读 · 5 评论 -
Spark Streaming 的玫瑰与刺
前言说人话:其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲,坑则是从实际场景中遇到的一些小细节描述。玫瑰篇玫瑰篇主要是说Spark Streaming的优势点。 玫瑰之代码复用这主要得益于Spark的设计,以及平台的全面性。你写的流处理的代码可以很方便的适用于Spark平台上的批处理,交互式处理。因为他们本身都是基于RDD模型的,并且Spark Streamin原创 2016-01-22 21:53:12 · 945 阅读 · 14 评论 -
Spark 动态资源分配(Dynamic Resource Allocation) 解析
Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。前言最近在使用Spark Streaming程序时,发现如下几个问题:高峰和低峰Spark Streaming每个周期要处理的数据量相差三倍以上,预分配资源会导致低峰的时候资源的大量浪费。Spark Streaming 跑的数量多了后,资源占用相当可观。所以便有原创 2016-01-22 21:52:35 · 4525 阅读 · 0 评论 -
Spark ListenerBus 和 MetricsSystem 体系分析
Spark 事件体系的中枢是ListenerBus,由该类接受Event并且分发给各个Listener。MetricsSystem 则是一个为了衡量系统的各种指标的度量系统。Listener可以是MetricsSystem的信息来源之一。他们之间总体是一个互相补充的关系。转载 2016-01-02 21:18:36 · 4058 阅读 · 1 评论 -
Spark Streaming 数据产生与导入相关的内存分析
前言我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。原创 2016-01-02 10:28:47 · 3035 阅读 · 7 评论 -
基于Spark的机器学习经验
这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了Spark-Shell作为数据分析的工具,简单几个命令,轻松处理几千万行数据。于是我就重新整理了下这篇文章。原创 2016-01-02 10:27:18 · 21835 阅读 · 4 评论 -
用大数据思维做运维监控
今天一大早就看到了一篇文章,叫【大数据对于运维的意义】。该文章基本上是从三个层面阐述的:工程数据,譬如工单数量,SLA可用性,基础资源,故障率,报警统计业务数据,譬如业务DashBoard,Trace调用链,业务拓扑切换,业务指标,业务基准数据,业务日志挖掘数据可视化当然,这篇文章谈的是运维都有哪些数据,哪些指标,以及数据呈现。并没有谈及如何和大数据相关的架构做整合,从而能让这些数据真的变得原创 2016-01-02 10:24:34 · 13210 阅读 · 3 评论 -
工作迷思
早上看到一个报告,说是北京工作学习时间平均达到每天9小时以上,周末用来工作学习的时间也是全国最高的。在这个因空气质量,交通拥堵而闻名的巨型城市,每个人,只要愿意,都有机会实现自身的价值。原创 2016-01-02 10:18:10 · 1201 阅读 · 7 评论 -
Spark新愿景:让深度学习变得更加易于使用
前言Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新的愿景:让深度学习变得更容易。 当然牛好吹,也是要做些实际行动的,所有便有了spark-deep-learning项目。这件事情已经有很多人尝试做了,但显然太浅了,DB公司则做的更深入些。原理要做深度学习,肯定不能离开TensorFlow, MXNet之类的。 spark-deep-lea原创 2017-09-24 21:19:58 · 957 阅读 · 0 评论