博客专栏  >  云计算/大数据   >  深入理解Spark

深入理解Spark

通过阅读Spark源码,深入理解Spark内部各个子系统的工作原理,并给性能调优和开发工作提供参考意义。

关注
159 已关注
27篇博文
  • Spark2.1.0之模型设计与基本架构

    Spark编程模型      正如Hadoop在介绍MapReduce编程模型时选择word count的例子,并且使用图形来说明一样,笔者对于Spark编程模型也选择用图形展现。      Spar...

    2018-06-12 09:41
    839
  • Spark2.1.0之模块设计

    在阅读本文之前,读者最好已经阅读了《Spark2.1.0之初识Spark》和《Spark2.1.0之基础知识》两篇文章。本文将主要介绍Spark2.1.0版本中的模块设计以及各个模块的功能和特点。整个...

    2018-06-05 10:00
    720
  • Spark2.1.0之基础知识

    在阅读本文之前,读者最好已经阅读了《Spark2.1.0之初识Spark》一文,本文将对Spark的基础知识进行介绍。但在此之前,读者先跟随本人来一次简单的时光穿梭,最后还将对Java与Scala在语...

    2018-05-24 09:49
    1080
  • Spark2.1.0之代码结构及载入Ecplise方法

    一、项目结构        在大型项目中,往往涉及非常多的功能模块,此时借助于Maven进行项目、子项目(模块)的管理,能够节省很多开发和沟通成本。整个Spark项目就是一个大的Maven项目,包含着...

    2018-05-17 10:01
    593
  • Spark2.1.0之初体验

    在《Spark2.1.0之运行环境准备》一文中,已经介绍了如何准备好基本的Spark运行环境,现在是时候实践一下,以便于在使用过程中提升读者对于Spark最直接的感触!本文通过Spark的基本使用,让...

    2018-05-04 10:01
    3578
  • Spark2.1.0之运行环境准备

    学习一个工具的最好途径,就是使用它。这就好比《极品飞车》玩得好的同学,未必真的会开车,要学习车的驾驶技能,就必须用手触摸方向盘、用脚感受刹车与油门的力道。在IT领域,在深入了解一个系统的原理、实现细节...

    2018-05-04 10:15
    1132
  • Spark2.1.0之剖析spark-shell

    通过在spark-shell中执行word count的过程,让读者了解到可以使用spark-shell提交Spark作业。现在读者应该很想知道spark-shell究竟做了什么呢?脚本分析     ...

    2018-04-20 09:30
    2027
  • Spark1.6.0功能扩展——为HiveThriftServer2增加HA

    前言 HiveThriftServer2是Spark基于HiveServer2实现的多Session管理的Thrift服务,提供对Hive的集中式管理服务。HiveThriftServer2作为Yar...

    2018-04-16 10:10
    642
  • Spark2.1.0之初识Spark

    随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题;社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上;女孩子们现在少了逛街,多了在各大电商平台上的...

    2018-04-09 09:48
    3447
  • Spark1.6.0——HiveThriftServer2的生命周期管理

    前言 几年前,我在刚刚进入大数据领域的时候,很快就了解到Hive所提供的一种另类的SQL。最初使用Hive的命令行提交任务,后来便用上了HiveServer和HiveServer2。半年前第一次注意到...

    2018-03-09 11:43
    3021
  • Spark2.1命令工具类CommandUtils的源码分析

    注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录F的内容都在本文呈现。 CommandUtils是Spark中最常用的工具类之...

    2018-03-09 11:40
    360
  • 附录G Netty与NettyUtils

    注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录G的内容都在本文呈现。 Netty是一个NIO客户端服务器框架,使得开发高性能...

    2018-02-07 09:39
    1285
  • Spark2.1 RPC工具类RpcUtils

    注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录H的内容都在本文呈现。 RpcUtils是RpcEnv中经常用到的工具类,这里...

    2018-03-01 10:12
    835
  • 附录D Metrics简介

    注:本文是为了配合《Spark内核设计的艺术——架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录D的内容都在本文呈现。 Metrics是codahale提供的第三方度量仓库...

    2018-02-04 18:26
    1165
  • 附录C Jetty与JettyUtils

    注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录C的内容都在本文呈现。Jetty简介 Jetty是一个开源的,以Java作为开...

    2018-02-04 18:28
    1907
  • 附录B Akka简介

    注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录B的内容都在本文呈现。 Akka是一款提供了用于构建高并发的、分布式的、可伸缩...

    2018-02-01 21:10
    482
  • 附录A Spark2.1核心工具类Utils

    注:本文是为了配合《Spark内核设计的艺术 架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录A的内容都在本文呈现。 Utils是Spark最常用的工具类之一,Spark ...

    2018-01-25 09:46
    1579
  • Spark的RDD检查点实现分析

    Spark的RDD执行完成之后会保存检查点,便于当整个作业运行失败重新运行时候,从检查点恢复之前已经运行成功的RDD结果,这样就会大大减少重新计算的成本,提高任务恢复效率和执行效率,节省Spark各个...

    2016-05-26 10:30
    15371
  • Spark如何使用Akka实现进程、节点通信的简明介绍

    Akka是一款提供了用于构建高并发的、分布式的、可伸缩的、基于Java虚拟机的消息驱动应用的工具集和运行时环境。从下面Akka官网提供的一段代码示例,可以看出Akka并发编程的简约。

    2016-04-05 12:08
    8850
  • Spark中常用工具类Utils的简明介绍

    Utils是Spark中最常用的工具类之一,如果不关心其实现,也不会对理解Spark有太多影响。但是对于Scala或者Spark的初学者来说,通过了解Utils工具类的实现,也是个不错的入门途径。下面...

    2016-03-16 14:34
    6092
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部