
Apache Spark
spark学习,问题记录
Mathieu66
Apache Hudi Commiter
展开
-
Structured Streaming《入门示例》
概述:Structured Streaming 是一个构建在Spark SQL 引擎上,可扩展,容错的的流处理引擎。您可以像编写静态数据的批处理程序一样,编写流处理程序。Spark SQL 引擎会增量的运行流处理程序,并持续的,在有流数据到来时更新最终结果。您可以使用DataSet/DataFrame API 来编写流聚合、事件窗口、流和批 join等操作(目前支持Scala,Java,...原创 2018-11-02 16:46:00 · 1564 阅读 · 1 评论 -
《Spark Streaming 编程指南核心概念之 缓存/持久化、检查点》
目录1. 缓存/持久化2. 检查点2.1 什么时候启动检查点2.2 如何配置检查点1. 缓存/持久化和RDD相同,DStreams 也允许开发者将 stream数据持久化到内存。也就是说,在DStream上使用persist()方法将会自动将每个DStream RDD保存到内存。这在DStream数据被多次使用的情况下会比较有用(同一个数据上有多个操作)。对于基于窗口的操作...翻译 2018-12-19 10:51:25 · 328 阅读 · 0 评论 -
《Spark Streaming 有状态wordCount示例 (updateStateByKey的使用)》
Spark Streaming 有状态wordCount示例 (updateStateByKey的使用)示例从一个wordcount开始,不同应用场景下的state是不同的,需要根据需求修改updateFunction。数据接收自kafka topicA。从 Spark、hadoop、flink、hbase、kafka中随机抽取一个单词发送到 topicA代码如下:/** * ...原创 2018-12-18 17:32:57 · 537 阅读 · 0 评论 -
《Spark Streaming 编程指南 之foreachRDD设计模式》
foreachRDD 设计模式dstream.foreachRDD是一个强大的元语,它允许将数据发送到外部系统。所以理解如何正确、高效的使用这个元语非常重要。下面是一些常见的错误使用方法。通常情况下,写出数据到外部系统需要创建一个connection对象(例如 远程服务的TCP connection),并使用这个connection发送数据到远程系统。为达到这个目的,开发人员可能会无意中在...翻译 2018-12-18 17:09:45 · 368 阅读 · 0 评论 -
《Spark Streaming 编程指南核心概念之 累加器、广播变量与检查点》
Spark Streaming 编程指南核心概念之 《累加器、广播变量与检查点》注:发布后才发现这个题目有歧义。这篇文章主要是说明一个概念:累加器,广播变量不能从检查点恢复,如果使用了需要做额外的配置,并不是介绍这三个词的概念。无奈,这个知识点就是在Spark Streaming编程指南核心概念目录下,就不去改了。想看概念的小伙伴请移步到,累加器、广播变量、检查点。在Spark Strea...原创 2018-12-20 17:10:24 · 649 阅读 · 3 评论 -
《Spark Streaming checkpoint 实现状态恢复》
前一篇翻译了官网关于缓存和检查点机制的介绍,并没有写代码实现。这里改造下有状态wordCount示例,简要介绍下检查点机制的启用,以及如何在driver失败时从检查点恢复。检查点的启动非常简单,只需要配置下checkpoint路径即可:StreamingContext.checkpoint(checkpointDirectory),而若想从检查点恢复上次计算,则需要重写部分代码,实现下述功能:...原创 2018-12-19 20:54:33 · 1568 阅读 · 4 评论 -
Structured Streaming集成Kafka《入门示例》
目录1. 依赖:2. 代码:3. 结果: 4. 参考:本文介绍Structured Streaming集成kafka的入门示例,主要介绍从kafka读出数据,打印在控制台以及写出到另一个Kafka topic。1. 依赖:<dependency> <groupId>org.apache.spark</groupId> ...原创 2018-11-19 19:06:19 · 829 阅读 · 1 评论 -
Structured Streaming集成Kafka《官方文档翻译》
目录1. 链接2. 从Kafka读数据2.1 从流查询创建Kafka数据源2.2 从批查询Kafka数据源(spark.readStream变成了spark.read)3. 向Kafka写数据3.1 创建流查询Kafka Sink3.2 创建批查询Kafka Sink4 Kafka 特有参数配置1. 链接groupId = org.apache.spark...原创 2018-11-14 20:41:38 · 2438 阅读 · 0 评论 -
Structured Streaming《编程模型》
Structured Streaming 的核心思想是将实时数据流看作数据在不断追加的表。这种思想促生了一种新的,和批处理模型非常类似的流处理模型。您可以像表示静态数据标准批查询一样表示流计算。Spark 会在这个无界表上运行增量查询。目录1. 基本概念2. 事件时间和迟到数据处理3. 容错机制1. 基本概念如果把输入流看作是“Input Table”,那么流中到达的每个数...原创 2018-11-02 17:55:52 · 714 阅读 · 0 评论 -
Spark通信架构(转载)
声明:该博客整理自尚硅谷2018出的一套教学视频,Spark章节由武玉飞老师主讲,非本人原创。目录一、概述二、通信组件概览三、 EndPoint启动流程四、EndPoint Send&Ask流程五、EndPoint receive 流程六、EndPoint Inbox处理流程七、EndPoint画像一、概述Spark作为分布式计算框架,多个节点的设计...转载 2019-01-26 20:08:59 · 1195 阅读 · 0 评论