大数据/Spark/Structured Streaming
文章平均质量分 94
Anbang713
这个作者很懒,什么都没留下…
展开
-
Structured Streaming-快速入门
一 概览Structured Streaming是一种可伸缩的、容错的、基于Spark SQL引擎的流式计算引擎。我们可以使用与针对静态数据的批处理计算操作一样的方式来编写流式计算操作。随着数据不断地到达,Spark SQL引擎会以一种增量的方式来执行这些操作,并且持续更新结算结果。可以使用java、scala、python等编程语言,以及dataset/dataframe api来编写计算操...原创 2018-08-26 11:31:16 · 1623 阅读 · 0 评论 -
Structured Streaming-编程模型
Structured Streaming的关键思想在于将实时数据流视为不断追加的表。这导致与批处理模型非常相似的流处理模型。我们可以在静态表上将流式计算表示为标准的batch-like查询,而Spark会在无界输入表上作为增量查询来运行它。一 基本概念将输入数据流视为“输入表”,到达流的每个数据项都像追加到输入表的新的一行。对输入的查询将生成“结果表”。 每个触发间隔(例如:每1秒...翻译 2018-08-26 12:24:00 · 536 阅读 · 0 评论 -
Structured Streaming-创建流式的dataset和dataframe
流式dataframe可以通过DataStreamReader接口来创建,DataStreamReader对象是通过SparkSession的readStream()方法返回的。与创建静态dataframe的read()方法类似,我们可以指定数据源的一些配置信息,比如data format、schema、option等。一 输入源spark 2.0中初步提供了一些内置的source支持。...原创 2018-08-26 13:29:07 · 1074 阅读 · 0 评论 -
Structured Streaming-流式DataFrams/Datasets的操作
我们可以在Streaming DataFrames / Datasets上应用各种操作 - 从无类型的,类似SQL的操作(例如select,where,groupBy)到有类型的类似RDD的操作(例如,map,filter,flatMap)。一 基础操作:选择、映射、聚合import org.apache.spark.api.java.function.*;import org.apa...翻译 2018-08-26 13:57:07 · 553 阅读 · 0 评论 -
Structured Streaming-容错机制
如果实时计算作业遇到了某个错误挂掉了,那么我们可以配置容错机制让它自动重启,同时继续之前的进度运行下去。这是通过checkpoint和wal机制完成的。可以给query配置一个checkpoint location,接着query会将所有的元信息(比如每个trigger消费的offset范围、至今为止的聚合结果数据),写入checkpoint目录。aggDF .writeStream()...原创 2018-08-26 14:03:57 · 1109 阅读 · 0 评论