Spark
大数据
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
蒙奇·D·路飞-
熟悉k8s、docker;熟悉Spark Streaming,Storm,Flink,Hadoop,Hive,Redis,Kafka,RocketMQ,ES;熟悉Socket,AIO/NIO技术,熟练使用Gradle、Maven、Spring Boot2、SpringMVC、MyBatis; 熟炼掌握Oracle、MySql、SQLite、MongoDB等数据库开发 熟悉React、Vue等框架 ;熟练运用Git/Github, SVN,CC等 熟悉报表工具BO、Cognos、ETL工具Kettle ;熟悉Asp.net平台,熟悉C#;熟练开发安卓和ios手机端应用。
展开
-
Spark生态系统解析及基于Redis的开源分布式服务Codis
摘要:在第九期“七牛开发者最佳实践日”上,陈超就Spark整个生态圈进行了讲解,而刘奇则分享豌豆荚在Redis上的摸索和实践。1月24日,一场基于Spark和Redis组成的分布式系统实践分享由Spark资深布道者陈超和豌豆荚资深系统架构师刘奇联手打造。陈超:Spark Ecosystem & Internals陈超(@CrazyJvm),Spark布道者在分享中,转载 2015-02-04 15:14:39 · 1099 阅读 · 0 评论 -
Spark这一年,从开源到火爆
摘要:自2014年3月份跻身Apache顶级项目(TLP),Spark已然成为ASF最活跃的项目之一,得到了业内广泛的支持——2014年12月发布的Spark 1.2版本包含了来自172位Contributor贡献的1000多个commits。2014年的大数据领域,Apache Spark(以下简称Spark)无疑最受瞩目。Spark,出自名门伯克利AMPLab之手,目前由商业公司D翻译 2015-03-13 13:46:18 · 3633 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
摘要:许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状翻译 2015-03-13 14:18:56 · 806 阅读 · 0 评论 -
Spark技术内幕:Storage 模块整体架构
Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户原创 2015-03-19 10:03:51 · 1607 阅读 · 0 评论 -
Spark技术内幕:究竟什么是RDD
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现。第一个问题,RDD是什么?Resili原创 2015-03-19 09:50:49 · 748 阅读 · 0 评论 -
从Storm和Spark 学习流式实时分布式计算的设计
0. 背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能原创 2015-03-19 09:47:31 · 1877 阅读 · 0 评论 -
Spark技术内幕:Master基于ZooKeeper的High Availability(HA)源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,Single Point of Failure)。Spark可以选用ZooKeeper来实现HA。 ZooKeeper提供了一个Leader Election机制,利用这个机制可以保证虽然集群存在多个Master但是只有一个是Active的,其他的都是原创 2015-03-19 09:38:37 · 4174 阅读 · 0 评论 -
Spark技术内幕:Client,Master和Worker 通信源码解析
Spark的Cluster Manager可以有几种部署模式:StandloneMesosYARNEC2Local在向集群提交计算任务后,系统的运算模型就是Driver Program定义的SparkContext向APP Master提交,有APP Master进行计算资源的调度并最终完成计算。具体阐述可以阅读《Spark:大数据的电花火石!》。那么Standal原创 2015-03-19 09:26:49 · 1072 阅读 · 0 评论 -
Spark:大数据的电花火石!
什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark。当然这里说的Spark指的是Apache Spark,Apache Spark™is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,原创 2015-03-19 09:26:46 · 1009 阅读 · 0 评论 -
Spark技术内幕:Shuffle Read的整体流程
回忆一下,每个Stage的上边界,要么需要从外部存储读取数据,要么需要读取上一个Stage的输出;而下边界,要么是需要写入本地文件系统(需要Shuffle),以供childStage读取,要么是最后一个Stage,需要输出结果。这里的Stage,在运行时的时候就是可以以pipeline的方式运行的一组Task,除了最后一个Stage对应的是ResultTask,其余的Stage对应的都是Shuff原创 2015-03-19 10:00:30 · 1683 阅读 · 2 评论 -
What’s new in Spark 1.2.0
1.2.0 was released on 12/18, 2014在2014年5月30日发布了Spark 1.0 和9月11日发布了Spark1.1.后,Spark 1.2 终于在12月18日发布。作为1.X时代的第三个release,它有什么重要更新呢?1. Spark Core:性能和易用性的改进对于超大规模的Shuffle,Spark Core在性能和稳定性方面做了两个重要原创 2015-03-19 09:54:43 · 479 阅读 · 0 评论 -
Spark 1.0 开发环境构建:maven/sbt/idea
因为我原来对maven和sbt都不熟悉,因此使用两种方法都编译了一下。下面记录一下编译时候遇到的问题。然后介绍一下如果使用IntelliJ IDEA 13.1构建开发环境。首先准备java环境和scala环境:1. jdk 1.72. scala 2.11.11. maven首先安装maven,我安装的是3.2.3, 可以直接下载binary。解压即可用。需要设置一下环原创 2015-03-19 09:50:42 · 690 阅读 · 0 评论 -
Spark技术内幕:Shuffle Map Task运算结果的处理
Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对Shuffle Write的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffle Writer时,我们知道Sh原创 2015-03-19 09:58:26 · 2359 阅读 · 0 评论 -
Spark技术内幕:Shuffle Pluggable框架详解,你怎么开发自己的Shuffle Service?
首先介绍一下需要实现的接口。框架的类图如图所示(今天CSDN抽风,竟然上传不了图片。如果需要实现新的Shuffle机制,那么需要实现这些接口。1.1.1 org.apache.spark.shuffle.ShuffleManagerDriver和每个Executor都会持有一个ShuffleManager,这个ShuffleManager可以通过配置项spark.shuffle.原创 2015-03-19 09:56:55 · 974 阅读 · 0 评论 -
Spark技术内幕:Sort Based Shuffle实现解析
在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager 从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sor原创 2015-03-19 09:55:31 · 676 阅读 · 0 评论 -
Spark技术内幕: Task向Executor提交的源码解析
在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。这就是本文的主题。从原创 2015-03-19 09:53:24 · 1172 阅读 · 0 评论 -
Spark技术内幕:Stage划分及提交源码分析
当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.apache.spark.scheduler.DAGScheduler#submitJobor原创 2015-03-19 09:53:34 · 770 阅读 · 0 评论 -
Spark技术内幕:Shuffle的性能调优
通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1 spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的原创 2015-03-19 10:01:19 · 11728 阅读 · 1 评论 -
Databricks、Intel、BAT齐聚,2015 Spark峰会火花四射
摘要:Databricks、微软、Intel、百度、阿里、腾讯、小米、亚信都来了,你在哪里?2015 Spark峰会最后一场议题已被保留,你想听谁讲、讲什么、亦或是自己讲?在吸引Cloudera、Datastax、 MapR、Pivotal、Hortonworks等众多厂商加入的同时,Spark技术更在Yahoo、eBay、Twitter、Amazon、阿里、腾讯、百度、小米、京东等众转载 2015-03-13 13:32:50 · 1387 阅读 · 0 评论