Spark内存计算
文章平均质量分 87
Spark内存计算
麦田里的守望者·
相信相信的力量
展开
-
Spark SQL 血缘解析方案
瞬间是不是感觉清晰了,可以完美的拿到表和表以及字段和字段的关系,甚至在加工点场景,可以吧字段的加工表达式可以给生成出来.这里需要注意原生的json文件太大,在发送到kafka中对存储和带宽都有压力,最后注意:血缘的解析处理,放在该agent端, 否则kafka的压力会很大,因为单条消息生产环境下会很大可能有10多mb都有可能。目前这个是最简单的,如果没有特殊的需求,可以直接对Apache Atlas中的hive hook进行裁剪,最终可以得到业务所需的血缘采集插件,一般可以到字段级别血缘。原创 2024-06-22 16:58:41 · 1069 阅读 · 0 评论 -
Structured Stream-结构化流-章节1
概述Structured Stream是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。使得用户可以像使用Spark SQL操作静态批处理计算一样使用Structured Stream的SQL操作流计算。当流数据继续到达时,Spark SQL引擎将负责递增地,连续地运行它并更新最终结果。使用 Dataset/DataFrame API 实现对实时数据的聚合、event-time 窗口计...原创 2020-03-02 12:12:07 · 242 阅读 · 0 评论 -
#Spark流计算-章节1
概述一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一般先有全量数据集,然后定义计算逻辑...原创 2020-02-27 12:00:06 · 453 阅读 · 0 评论 -
Apache Spark Streaming-教案
Spark StreamingSpark Streaming是构建在Spark 批处理之上一款流处理框架。与批处理不同的是,流处理计算的数据是无界数据流,输出也是持续的。Spark Streaming底层将Spark RDD Batch 拆分成 Macro RDD Batch实现类似流处理的功能。因此spark Streaming在微观上依旧是批处理框架。批处理 VS 流处理区别 ...原创 2020-02-27 09:14:54 · 394 阅读 · 0 评论 -
Apache Spark-[共享变量、广播变量、计数器、计算流程]
共享变量当RDD中的转换算子需要用到定义Driver中地变量的时候,计算节点在运行该转换算子之前,会通过网络将Driver中定义的变量下载到计算节点。同时如果计算节点在修改了下载的变量,该修改对Driver端定义的变量不可见。scala> var i:Int=0i: Int = 0scala> sc.textFile("file:///root/t_word").foreac...原创 2020-02-26 15:37:03 · 215 阅读 · 0 评论 -
Spark Catalyst初识
Spark Catalyst最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL...转载 2020-02-26 12:30:49 · 488 阅读 · 0 评论 -
Spark对接Hive
修改hive-site.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://CentOS:3306/hive?createDatabaseIfNotExist=true</value></property>...原创 2020-02-25 14:43:51 · 242 阅读 · 0 评论 -
Apache Spark 转换算子详解
RDD OperationsRDD支持两种类型的操作:transformations-转换,将一个已经存在的RDD转换为一个新的RDD,另外一种称为actions-动作,动作算子一般在执行结束以后,会将结果返回给Driver。在Spark中所有的transformations都是lazy的,所有转换算子并不会立即执行,它们仅仅是记录对当前RDD的转换逻辑。仅当Actions算子要求将结果返回给D...原创 2020-02-19 18:09:11 · 359 阅读 · 0 评论 -
Apache Spark-[概述和安装]
Spark概述Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一代大数据处理框架,在设...原创 2020-02-17 17:29:34 · 465 阅读 · 0 评论 -
Spark SQL编程指南-收费版
Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个...原创 2019-08-17 21:38:49 · 641 阅读 · 0 评论 -
Structured Streaming 编程指南
简介Structured Streaming 是一个构建在SparkSQL可扩展和容错的流处理引擎.用户可以使用计算静态批处理的SQL表达式实现Streaming计算。内部使用Spark SQL实现对数据流的持续计算和持续输出。用户还可以使用Dataset/DataFrame API实现对流数据的聚合、时间窗口、以及stream-to-batch的处理等,同时Struced Streaming系...原创 2019-08-21 20:01:39 · 579 阅读 · 0 评论 -
Apache Spark SQL 章节六00
Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个...原创 2019-08-20 08:52:32 · 397 阅读 · 0 评论 -
Apache Spark 之 SparkSQL(章节六)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wySpark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如...原创 2019-05-07 14:44:51 · 705 阅读 · 0 评论 -
Apache Spark之DStream算子(章节五)
DStreams 转换算子与RDD类似,转换允许修改来自输入DStream的数据。 DStreams支持普通Spark RDD上可用的许多转换。一些常见的如下。TransformationMeaningmap(func)Return a new DStream by passing each element of the source DStream through a ...原创 2019-04-25 15:09:15 · 749 阅读 · 0 评论 -
Apache Spark Streaming (章节四)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wySpark StreamingSpark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和...原创 2019-04-24 19:34:50 · 507 阅读 · 0 评论 -
Apache Spark之RDD算子分析(章节三)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wyRDD 转换算子map将父类RDD的元素以此转换成新的RDD元素scala> sc.parallelize(List(1,2,3,4,5),3).map(item=>item+2).collect()flatMap将集合的元素展开,并转换scala>...原创 2019-04-23 18:19:42 · 617 阅读 · 0 评论 -
Spark Yarn|Standalone
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交...原创 2019-04-18 16:42:49 · 347 阅读 · 0 评论 -
Apache Spark之RDD详解 (章节二)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wyRDD概述Spark计算中一个重要的概念就是可以跨越多个节点的可伸缩分布式数据集 RDD(resilient distributeddataset) Spark的内存计算的核心就是RDD的并行计算。RDD可以理解是一个弹性的,分布式、不可变的、带有分区的数据集合,所谓的Spark...原创 2019-04-23 15:06:59 · 670 阅读 · 0 评论 -
Apache Spark之架构概述(章节一)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交...原创 2019-04-22 14:32:07 · 1259 阅读 · 0 评论