干货 | 如何成为大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。


伴随Spark技术的普及推广,对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的薪酬。而要想成为Spark高手,也需要一招一式,从内功练起:通常来讲需要经历以下阶段:


第一阶段:熟练的掌握Scala及java语言

  1. Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须掌握Scala,;

  2. 虽然说现在的Spark可以采用多语言Java、Python等进行应用程序开发,但是最快速的和支持最好的开发API依然并将永远是Scala方式的API,所以你必须掌握Scala来编写复杂的和高性能的Spark分布式程序;

  3. 尤其要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等;

  4. 掌握JAVA语言多线程,netty,rpc,ClassLoader,运行环境等(源码需要)。


第二阶段:精通Spark平台本身提供给开发者API

  1. 掌握Spark中面向RDD的开发模式部署模式:本地(调试),Standalone,yarn等 ,掌握各种transformation和action函数的使用;

  2. 掌握Spark中的宽依赖和窄依赖以及lineage机制;

  3. 掌握RDD的计算流程,例如Stage的划分、Spark应用程序提交给集群的基本过程和Worker节点基础的工作原理等

  4. 熟练掌握spark on yarn的机制原理及调优



第三阶段:深入Spark内核

此阶段主要是通过Spark框架的源码研读来深入Spark内核部分:


  1. 通过源码掌握Spark的任务提交过程;

  2. 通过源码掌握Spark集群的任务调度;

  3. 尤其要精通DAGScheduler、TaskScheduler,Driver和Executor节点内部的工作的每一步的细节;

  4. Driver和Executor的运行环境及RPC过程

  5. 缓存RDD,Checkpoint,Shuffle等缓存或者暂存垃圾清除机制

  6. 熟练掌握BlockManager,Broadcast,Accumulator,缓存等机制原理

  7. 熟练掌握Shuffle原理源码及调优


第四阶级:掌握基于Spark Streaming

Spark作为云计算大数据时代的集大成者,其中其组件spark Streaming在企业准实时处理也是基本是必备,所以作为大数据从业者熟练掌握也是必须且必要的:


  1. Spark Streaming是非常出色的实时流处理框架,要掌握其DStream、transformation和checkpoint等;

  2. 熟练掌握kafka 与spark Streaming结合的两种方式及调优方式

  3. 熟练掌握Structured Streaming原理及作用并且要掌握其余kafka结合

  4. 熟练掌握SparkStreaming的源码尤其是和kafka结合的两种方式的源码原理。

  5. 熟练掌握spark Streaming的web ui及各个指标,如:批次执行事件处理时间,调度延迟,待处理队列并且会根据这些指标调优。

  6. 会自定义监控系统


第五阶级:掌握基于Spark SQL

企业环境中也还是以数据仓库居多,鉴于大家对实时性要求比较高,那么spark sql就是我们作为仓库分析引擎的最爱(浪尖负责的两个集群都是计算分析一spark sql为主):


  1. spark sql要理解Dataset的概念及与RDD的区别,各种算子

  2. 要理解基于hive生成的永久表和没有hive的临时表的区别

  3. spark sql+hive metastore基本是标配,无论是sql的支持,还是永久表特性

  4. 要掌握存储格式及性能对比

  5. Spark sql也要熟悉它的优化器catalyst的工作原理。

  6. Spark Sql的dataset的链式计算原理,逻辑计划翻译成物理计划的源码(非必须,面试及企业中牵涉到sql源码调优的比较少)


第六阶级:掌握基于spark机器学习及图计算

企业环境使用spark作为机器学习及深度学习分析引擎的情况也是日渐增多,结合方式就很多了:

java系:

  1. spark ml/mllib spark自带的机器学习库,目前也逐步有开源的深度学习及nlp等框架( spaCy, CoreNLP, OpenNLP, Mallet, GATE, Weka, UIMA, nltk, gensim, Negex, word2vec, GloVe)

  2. 与DeepLearning4j目前用的也比较多的一种形式


python系:

  1.  pyspark

  2. spark与TensorFlow结合



第七阶级:掌握spark相关生态边缘

企业中使用spark肯定也会涉及到spark的边缘生态,这里我们举几个常用的软件框架:

  1. hadoop系列:kafka,hdfs,yarn

  2. 输入源及结果输出,主要是:mysql/redis/hbase/mongod

  3. 内存加速的框架redis,Alluxio

  4. es、solr




第八阶级:做商业级别的Spark项目

通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面,包括项目的架构设计、用到的技术的剖析、开发实现、运维等,完整掌握其中的每一个阶段和细节,这样就可以让您以后可以从容面对绝大多数Spark项目。


第九阶级:提供Spark解决方案

  1. 彻底掌握Spark框架源码的每一个细节;

  2. 根据不同的业务场景的需要提供Spark在不同场景的下的解决方案;

  3. 根据实际需要,在Spark框架基础上进行二次开发,打造自己的Spark框架;


这就是浪尖总结的我们学好spark的主要步骤;想学好,着重留意深色字体的。坚持总是空难,但是坚持下来就会有质的飞跃,后面浪尖会出一套spark这个学习套件的视频,欢迎留意。





关于Spark高级玩法

kafkahbasespark,Flink等入门到深入源码,spark机器学习,大数据安全,大数据运维,请关注浪尖公众号,看高质量文章。

更多文章,敬请期待




  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存中。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散化流处理模型(DPM),将长周期的数据流划分为离散化的小批量,每个批次的数据被存储在 RDD 中进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程中进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散化处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散化处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比中,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和读取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优化器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值