Spark
文章平均质量分 90
提灯寻梦在南国
这个作者很懒,什么都没留下…
展开
-
spark作业升级到spark3 scala 2.12 踩坑和解决方法
前言因为spark集群的换代升级, 需要从scala 2.11 升级到scala 2.12 spark2升级到spark 3。本篇博客主要讲述南国在将spark 作业升级时遇到的问题和解决办法。具体步骤1.升级spark相关依赖针对于pom文件中类似<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId>原创 2021-01-17 12:00:17 · 5908 阅读 · 4 评论 -
SparkCore——详述Spark作业调度
前言我们在之前的博客中讲过,TaskScheduler负责每个具体任务的实际物理调度,DAGScheduler负责将作业拆分成为不停阶段的具体有依赖关系的多批任务,可以理解为DAGScheduler负责任务的逻辑调度。本篇博客,结合这段时间看过的一些书籍,南国在这里重点回顾一下Spark中作业调度的相关知识。作业调度的顶层逻辑概述作业调度的具体工作流程作业调度的基本流程如下图所示:...原创 2020-02-06 15:29:01 · 339 阅读 · 0 评论 -
spark代码 spark-submit提交yarn-cluster模式
worldcount yarn-cluster集群作业运行上面写的是一个windows本地的worldcount的代码,当然这种功能简单 代码量少的 也可以直接在spark-shell中直接输scala指令。但是在项目开发 企业运用中,因为本地的资源有限 使得无法发挥出spark的真正优势。因此 在这里 我就spark代码在集群中运行 做一些补充讲述。我使用的环境是: idea编译器 jdk...原创 2019-07-15 21:20:10 · 3917 阅读 · 1 评论 -
Spark Streaming运行架构和运行原理总结
1. SparkStreaming的运行架构Spark Streaming相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈,其中Spark Streaming功能主要包括流处理引擎的流数据接收与存储以及批处理作业的生成与管理,而Spark Core负责处理Spark Streaming发送过来的作业。Spark Streaming分为Driver端和Client端,运行在Driv...转载 2019-04-21 16:20:45 · 293 阅读 · 0 评论 -
SparkStreamin-DStream的输出操作以及foreachRDD详解
输出操作概览在Spark应用中,外部系统经常需要使用到Spark DStream处理后的数据,因此,需要采用输出操作把DStream的数据输出到数据库或者文件系统中。OutputMeaningprint打印每个batch中的前10个元素,主要用于测试,或者是不需要执行什么output操作时,用于简单触发一下job。saveAsTextFile(prefix, [su...原创 2019-04-21 15:29:29 · 1581 阅读 · 0 评论 -
大数据面试题——Spark篇
1. 简要讲述hadoop和spark的shuffle相同和差异?1)从高层次的的角度来看,两者并没有大的差别。它都是将 mapper(Spark 里是 ShuffleMapTask)的输出进行 partition,不同的 partition 送到不同的 reducer(Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask,也可能是 ResultTask...原创 2019-04-18 14:11:35 · 1815 阅读 · 1 评论 -
Spark处理数据倾斜
前言继上一篇写了一篇Hadoop处理数据倾斜,本篇博客针对Spark应用开发 南国在这里参考网上学习的资料和一些日常开发经验,写一篇有关于Spark处理数据倾斜的文章。1. 数据倾斜的基本概念关于这点,其实上一篇博客里面 南国已经做了讲述。这里南国再做个简单的论述,数据倾斜主要就是大数据集群并行进行数据处理的时候,由于数据分布不均,导致大量的数据集中分不到一台或者某几台计算节点上,导致处理速...转载 2019-03-16 19:55:08 · 670 阅读 · 0 评论 -
面试必备——Spark为什么比Hadoop快
前言大数据工程师都喜欢拿Spark和Hadoop进行对比。在大数据开发面试中,我们也会经常说到Hadoop Spark这两个常用框架。当我们被问到为什么Spark比Hadoop快时,大多数人一般的理解就是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop...转载 2019-01-02 16:26:21 · 809 阅读 · 0 评论 -
SparkStreaming入门(DStream ,Receiver,input DStream)
流计算简介数据总体上分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态数据”为对象,可以在很充裕的时间内对海量数据进行批处理,计算得到有价值的信息。Hadoop就是很典型的批处理模型,有HDFS和HBase存放大量的静态数据,由MapReduce负责对海量数据执行批量计算。流数据必须采用实时计算,实时计算最重要的一个需求是能够实时得...原创 2018-12-24 20:39:32 · 2259 阅读 · 2 评论 -
SparkSQL初级(聚合,Parquet,JSON,JDBC,Hive表)
紧接着系列博客上一篇Spark05-SparkSQL入门 的学习,这篇博客 主要讲解一些SparkSQL初级使用。聚合(Aggregations)内置的DataFrames函数提供常见的聚合,如count()、countDistinct()、avg()、max()、min()等。此外,用户并不局限于预定义的聚合函数,还可以创建自己的聚合函数。无用户定义的聚合函数(Untyped User-D...原创 2018-12-15 21:59:01 · 852 阅读 · 0 评论 -
SparkSQL入门(SparkSession,DataFrame,DataSet)
SparkSQL的基本认识Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用此额外信息来执行额外的优化。有几种与Spark SQL交互的方法,包括SQL和Dataset API。在计算结果时,使用相同的执行引擎,与您用于表达计算的API...原创 2018-12-15 20:28:49 · 2823 阅读 · 0 评论 -
SparkCore RDD编程综合案例编程(二次排序 TopN 多维属性的TopN)
这篇博客 我主要是对Spark02中RDD编程写一些简单的小demo综合运用我们之前学到的知识。1.实现基于排序机制的wordcountwordcount是大数据入门的程序,这里我们对Spark01中的入门案例-wordcount详解进行一点优化/** * 实现基于排序机制的wordcount(降序输出) * @author xjh 2018.11.20 */object So...原创 2018-12-08 23:06:12 · 1147 阅读 · 0 评论 -
SparkCore 运行过程剖析(基本运行流程, DAG,Lineage(血缘关系) 宽依赖和窄依赖)
之前的Spark总结,我提到了Spark的学习主要分为四个部分:1.Spark Core用于离线计算;2.Spark SQL用于交互式查询3.Spark Streaming用于实时流式计算4.Spark MLlib用于机器学习这一篇博客我来讲讲Spark内部的运行过程剖析,比较偏理论 但是绝对值得你一看。spark中的专业术语1.Application: 基于Spark的用户程...原创 2018-12-08 20:38:56 · 1219 阅读 · 0 评论 -
Spark学习路线-从入门到精通
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技...转载 2018-11-22 13:03:31 · 1809 阅读 · 0 评论 -
SparkCore——RDD详解
Spark中的核心编程原理下图从宏观上 简要概述spark的简单应用:RDD详解下图从宏观上 简要描述RDD:Spark中,RDD是基础 ,全称是Resilient Distributed Dataset(弹性分布式数据集)RDD的特点: (1). 它是在集群节点上的不可变的、已分区的集合对象。RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布...原创 2018-11-21 21:52:41 · 371 阅读 · 0 评论 -
SparkCore 基础知识(MapReduceVSSpark Spark应用 安装模式 wordcount详解{local模式 yarn-cluster模式})
前面几篇博文我们简述了Hadoop,包括HDFS MapReducede的知识,中间根据案例场景编写几个MR程序的代码实现。因为博主再学习实践的时候,暂时在==yarn(资源调度)==上应用的不多。这方面的知识 ,后续如果有所深刻见解,再写博文及进行总结归纳。读者恶补可以再网上查看其他总结的博客。1.MapReduce VS Spark以下通过我们之前对MapReduce的实践 以及后续Spa...原创 2018-11-21 20:55:01 · 375 阅读 · 0 评论