Spark常见故障诊断(一)

本人维护的Spark主要运行在三个Hadoop集群上,此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题,为了对经验进行沉淀,也为了给Spark用户提供一些借鉴,这里将对各...

2019-04-01 09:29:18

阅读数 1173

评论数 0

Spark2.1.0——SparkContext概述

Spark应用程序的提交离不开Spark Driver,后者是驱动应用程序在Spark集群上执行的原动力。了解Spark Driver的初始化,有助于读者理解Spark应用程序与Spark Driver的关系。 Spark Driver的初始化始终围绕着SparkContext的初始化。Spar...

2018-11-12 10:07:23

阅读数 1154

评论数 0

浅谈——程序员的自我革命

        在程序员这条道路上走过了十一年,即将迎来第十二个年头。之后是否是一个新的轮回?十一年前,从高校毕业后去哪里是当时首要考虑的问题。早在大二第二学期时就没有了要考研的打算,经常翘课回到宿舍鼓捣各种计算机软件,还记得当时最感兴趣的就是3DsMax和Flash了。这两款软件在那时风靡全球,...

2018-10-29 10:17:42

阅读数 5289

评论数 34

spark2.1.0之源码分析——RPC客户端TransportClient详解

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-08-28 10:48:46

阅读数 1212

评论数 2

spark2.1.0之源码分析——RPC服务端引导程序TransportServerBootstrap

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-08-20 10:56:59

阅读数 1972

评论数 4

spark2.1.0之源码分析——服务端RPC处理器RpcHandler详解

  提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——...

2018-08-13 10:21:13

阅读数 937

评论数 2

spark2.1.0之源码分析——RPC传输管道处理器详解

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-08-01 10:55:17

阅读数 460

评论数 1

spark2.1.0之源码分析——RPC管道初始化

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-07-25 10:32:57

阅读数 1939

评论数 0

spark2.1.0之源码分析——RPC服务器TransportServer

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》        TransportServer...

2018-07-17 10:32:36

阅读数 613

评论数 0

spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory

提示:阅读本文前最好先阅读《Spark2.1.0之内置RPC框架》和《spark2.1.0之源码分析——RPC配置TransportConf》。      TransportClientFactory是创建传输客户端(TransportClient)的工厂类。在说明《Spark2.1.0之内置RP...

2018-07-10 10:16:52

阅读数 1313

评论数 0

spark2.1.0之源码分析——RPC配置TransportConf

         在《Spark2.1.0之内置RPC框架》提到TransportContext中的TransportConf给Spark的RPC框架提供配置信息,它有两个成员属性——配置提供者conf和配置的模块名称module。这两个属性的定义如下: private final Config...

2018-07-02 18:31:02

阅读数 787

评论数 0

Spark2.1.0之内置RPC框架

        在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节点间的Shuffle过程、Block数据的复制与备份等。在Spark 0.x.x与Spark 1.x.x版本中,组件间的消息通信主要借助于Akka[1],使用Akka可以轻松的构建...

2018-06-27 09:27:34

阅读数 8039

评论数 3

Spark2.1.0之模型设计与基本架构

Spark编程模型      正如Hadoop在介绍MapReduce编程模型时选择word count的例子,并且使用图形来说明一样,笔者对于Spark编程模型也选择用图形展现。      Spark 应用程序从编写到提交、执行、输出的整个过程如图2-5所示。图2-5   代码执行过程图2-5中...

2018-06-12 09:41:32

阅读数 1493

评论数 6

Spark2.1.0之基础知识

      在阅读本文之前,读者最好已经阅读了《Spark2.1.0之初识Spark》一文,本文将对Spark的基础知识进行介绍。但在此之前,读者先跟随本人来一次简单的时光穿梭,最后还将对Java与Scala在语言上进行比较。版本变迁    经过5年多的发展,Spark目前的版本是2.3.0。Sp...

2018-05-24 09:49:08

阅读数 2034

评论数 0

Spark2.1.0之代码结构及载入Ecplise方法

一、项目结构        在大型项目中,往往涉及非常多的功能模块,此时借助于Maven进行项目、子项目(模块)的管理,能够节省很多开发和沟通成本。整个Spark项目就是一个大的Maven项目,包含着多个子项目。无论是Spark父项目还是子项目,本身都可以作为独立的Maven项目来管理。core是...

2018-05-17 10:01:58

阅读数 922

评论数 0

Spark2.1.0之运行环境准备

       学习一个工具的最好途径,就是使用它。这就好比《极品飞车》玩得好的同学,未必真的会开车,要学习车的驾驶技能,就必须用手触摸方向盘、用脚感受刹车与油门的力道。在IT领域,在深入了解一个系统的原理、实现细节之前,应当先准备好它的运行环境或者源码阅读环境。如果能在实际环境下安装和运行Spar...

2018-05-04 10:15:12

阅读数 1414

评论数 0

Spark1.6.0功能扩展——为HiveThriftServer2增加HA

前言 HiveThriftServer2是Spark基于HiveServer2实现的多Session管理的Thrift服务,提供对Hive的集中式管理服务。HiveThriftServer2作为Yarn上的Application,目前只支持yarn-client模式——即Driver运行在本地,A...

2018-04-16 10:10:36

阅读数 1258

评论数 0

Spark2.1.0之初识Spark

        随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题;社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上;女孩子们现在少了逛街,多了在各大电商平台上的购买;喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续...

2018-04-09 09:48:51

阅读数 4010

评论数 12

Spark1.6.0——HiveThriftServer2的生命周期管理

前言 几年前,我在刚刚进入大数据领域的时候,很快就了解到Hive所提供的一种另类的SQL。最初使用Hive的命令行提交任务,后来便用上了HiveServer和HiveServer2。半年前第一次注意到Spark的Thrift服务,当时心中就笃定它肯定与HiveServer2有着某种联系,直到在工...

2018-03-09 11:43:03

阅读数 3367

评论数 0

附录E Hadoop的word count例子

注:本文是为了配合《Spark内核设计的艺术——架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录E的内容都在本文呈现。 这里主要演示Hadoop1.0版本中的word count例子,用于和Spark中的实现对比。package org.apache.hadoop.e...

2018-03-04 16:54:09

阅读数 451

评论数 0

提示
确定要删除当前文章?
取消 删除