Spark
文章平均质量分 75
spark
CyAuroras
这个作者很懒,什么都没留下…
展开
-
Spark Streaming
SparkStreaming简介SparkStreaming,和SparkSQL⼀样,也是Spark⽣态栈中⾮常重要的⼀个模块,主要是⽤来进⾏流式计算的框架。流式计算框架,从计算的延迟上⾯,⼜可以分为纯实时流式计算和准实时流式计算,SparkStreaming是属于的准实时计算框架。所谓纯实时的计算,指的是来⼀条记录(event事件),启动⼀次计算的作业;离线计算,指的是每次计算⼀个⾮常⼤的⼀批(⽐如⼏百G,好⼏个T)数据;准实时呢,介于纯实时和离线计算之间的⼀...原创 2021-08-29 13:41:25 · 138 阅读 · 0 评论 -
大数据流式计算
目录流式计算简介流式计算常⻅的离线和流式计算框架SparkStreaming简介SparkStreaming基本⼯作原理Storm V.S. SparkStreaming V.S. Flink如何选择⼀款合适的流式处理框架流式计算简介流式计算如何去理解流式计算,最形象的例⼦,就是⼩明的往⽔池中放(⼊)⽔⼜放(出)⽔的案例。流式计算就像⽔流⼀样,数据连绵不断的产⽣,并被快速处理,所以流式计算拥有如下⼀些特点:数据是⽆界的(unbounded...原创 2021-08-29 13:38:19 · 2161 阅读 · 0 评论 -
SparkStreaming +Kafka ConsumerRecord无法序列化
错误:hadanotserializableresult:org.apache.kafka.clients.consumer.ConsumerRecord错误:hadanotserializableresult:org.apache.kafka.clients.consumer.ConsumerRecordConsumerRecord无法序列化可注册使用Kyro序列化 org.apache.spark.serializer.KryoSerializer Spark没有...原创 2021-08-23 17:41:14 · 734 阅读 · 0 评论 -
Spark自定义UDAF函数(强类型-DSL语法)
1.继承Aggregator2.实现方法3.注册函数4.通过DataSet数据集获取结果package com.wxx.bigdata.sql03 import org.apache.spark.sql.{Encoders, SparkSession}import org.apache.spark.sql.expressions.Aggregator object CustomerUDAFClassAPP { def main(args: Array[String]): Unit原创 2021-08-18 22:17:00 · 229 阅读 · 0 评论 -
spark shuff
HashMapShuffleSorthShuffle原创 2021-08-18 09:08:21 · 82 阅读 · 0 评论 -
Spark SQL的运⾏架构及原理
目录SparkSQL运⾏架构SparkSQL运⾏原理Catalyst 执行优化器SparkSQL运⾏架构Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执⾏。Spark SQL会先将SQL语句解析成⼀棵树,然后使⽤规则(Rule)对Tree进⾏绑定、优化等处理过程。Spark SQL由Core、Catalyst、 Hive、Hive-ThriftServer四部分构成:Core: 负责处理数据的输⼊和输...原创 2021-08-18 08:59:13 · 503 阅读 · 0 评论 -
Spark SQL 各函数的使用
数据001E8CB5AB11,ASUSTek,2018-07-1214:00:57,2018-07-1214:00:57,2018-07-1214:00:57,未知,僵尸屏,00023242DDEB7,其他,2018-07-1214:01:04,2018-07-1214:01:04,2018-07-1214:03:04,未知,僵尸屏,1200026C5DC5555,其他,2018-07-1213:59:49,2018-07-1213:59:49,2018-07-1214:05...原创 2021-08-17 20:26:31 · 1976 阅读 · 1 评论 -
Spark SQL 整合 Hive
spark SQL经常需要访问Hive metastore,Spark SQL可以通过Hive metastore获取Hive表的元数据。从Spark 1.4.0开始,Spark SQL只需简单的配置,就支持各版本Hive metastore的访问。注意,涉及到metastore时Spar SQL忽略了Hive的版本。Spark SQL内部将Hive反编译至Hive 1.2.1版本,Spark SQL的内部操作(serdes, UDFs, UDAFs, etc)都调用Hive 1.2.1版本...原创 2021-08-17 19:49:06 · 428 阅读 · 0 评论 -
Spark SQL的编程⼊⼝和模型
目录一、SparkSQL的编程模型1.1 编程模型简介二、RDD V.S. DataFrame V.S. Dataset2.1RDD2.2DataFrame2.3Dataset三、SparkSQL的编程⼊⼝3.1SparkSQL基本编程3.2 SparkSQL编程初体验一、SparkSQL的编程模型1.1 编程模型简介主要通过两种⽅式操作SparkSQL,⼀种就是SQL,另⼀种为DataFrame和Dataset。SQL...原创 2021-08-16 20:07:30 · 174 阅读 · 0 评论 -
Spark SQL的发展及特点
目录概述特点总结概述SparkSQL,顾名思义,就是Spark⽣态体系中的构建在SparkCore基础之上的⼀个基于SQL的计算模块。Hadoop刚开始出来的时候,使用的是hadoop自带的分布式计算系统MapReduce,但是MapReduce的使用难度较大,所以就开发了Hive,Hive编程用的是类SQL的HQL的语句,这样编程的难度就大大的降低了,Hive的运行原理就是将HQL语句经过语法解析、逻辑计划、物理计划转化成MapReduc...原创 2021-08-16 17:53:00 · 267 阅读 · 0 评论 -
SparkContext初始化的流程(源码)
【代码】SparkContext初始化的流程(源码)原创 2021-08-15 22:37:15 · 1209 阅读 · 0 评论 -
Spark生态圈介绍
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。如图 1 所示,Spark 生态圈以 S...原创 2021-08-15 15:18:26 · 480 阅读 · 0 评论 -
Spark Core之RDD持久化机制
目录一、RDD持久化原理二、RDD缓存 三、RDD持久化策略四、checkpoint检查点机制五、缓存和检查点区别5.1cache和persist⽐较5.3什么时候使⽤cache或checkpoint一、RDD持久化原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的...原创 2021-08-12 22:14:18 · 364 阅读 · 0 评论 -
Spark Core之Stage、Tank&Job划分
目录 《RDD的依赖关系》一、RDD的Job划分二、RRD的Job生成和提交的四给阶段三、Stage的划分四、Task划分五、WebUI中查看Stage和TaskStage的划分那么要想清楚RDD的依赖关系,可点击下面了解 《RDD的依赖关系》窄依赖,父RDD的分区最多只会被子RDD的一个分区使用, 宽依赖,父RDD的一个分区会被子RDD的多个分区使用(宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区,这是shuffle类操作)一、RDD的Job划分...原创 2021-08-12 21:36:16 · 691 阅读 · 0 评论 -
Spark Core之RDD依赖关系及血缘
目录一、RDD的依赖关系1.1窄依赖1.2宽依赖查看源码二、Lineage(⾎统)&容错性Lineage容错性一、RDD的依赖关系RDD和它依赖的⽗RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。注: 使⽤代码 rdd.toDebugString 可打印依赖关系1.1窄依赖说明:⽗RDD的每个分区只被⼀个⼦RDD分区使⽤...原创 2021-08-12 19:17:18 · 207 阅读 · 0 评论 -
Spark Core之RDD的五大特性
一.RDD的官网定义A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel. 翻译:弹性分布式数据集(RDD),Spark中的基本抽象。表示不可变的,分区的可以并行操作的元素集合。解释:RDD是Resi...原创 2021-08-10 21:05:54 · 982 阅读 · 1 评论 -
Spark Core之什么是RDD
目录一、RDD概念二、RDD做了什么三、RDD一、RDD概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表⼀个不可变、可分区、⾥⾯的元素可并⾏计算的集合。RDD具有数据流模型的特点:⾃动容错、位置感知性调度和可伸缩 性。RDD允许⽤户在执⾏多个查询时显式地将⼯作集缓存在内存中,后续的查询能够重⽤⼯作集,这极⼤地提升了查询速度。RDD 是 Spark 提供的最重要的...原创 2021-08-10 20:13:43 · 216 阅读 · 0 评论 -
Spark on Yarn 中YARN-Cluster和YARN-Client的区别及工作流程
目录一、介绍yarn的模型图二、AppMaster和Driver三、YARN-Cluster和YARN-Client的区别3.1YARN-client的⼯作流程3.2YARN-Cluster的工作原理3.3Cluster和Client区别一、介绍yarn的模型图运行流程1、 用户向 YARN 中提交应用程序,其中包括 MRAppMaster 程序,启动 MRAppMaster 的命令,用户程序等。2、ResourceManager 为该程序分配第一个 Con原创 2021-08-10 19:44:15 · 680 阅读 · 0 评论 -
Spark的介绍
目录一、Spark是什么?二、Hadoop与Spark关系及区别2.1框架⽐较2.2处理流程⽐较三、Spark 组件Spark CoreSpark SQLSpark StreamingSpark MLlibSpark GraphXStructured Streaming(2.X版本)四、Spark特点快易⽤通⽤兼容性一、Spark是什么?官⽹地址http://spark.apache.org/...原创 2021-08-10 19:18:22 · 196 阅读 · 0 评论 -
Spark集群的启动流程
( 1 )、调用start-all.sh开始创建Master对象,启动了一条Master进程。然后,执行preStart生命周期方法,开启一个定时器定期检测超时的worker节点;如果发现超时的worker节点,则将其移除。( 2 )、脚本会解析slaves配置文件,找到启动Worker的相应节点,开始启动Worker( 3 )、Worker服务启动后开始调用preStart方法开始向所有的Master进行注册( 4 )、Master接收到Worker发送过来注册信息,Master开...原创 2021-08-10 19:19:29 · 1037 阅读 · 0 评论