spark数据流的合并与分支

最新推荐文章于 2022-07-14 09:53:42 发布

白乔

最新推荐文章于 2022-07-14 09:53:42 发布

阅读量2.8k

点赞数

分类专栏：源码故事

本文链接：https://blog.csdn.net/bluejoe2000/article/details/77868131

版权

本文探讨了如何在Spark数据流中进行合并和分支操作。通过使用`union`函数展示了批量数据和流数据的合并过程，并通过示例解释了如何实现数据流的假分支和可能的真正分支策略，如挂接多个Sink。

摘要由CSDN通过智能技术生成

spark数据流（data flow）的合并可以通过union来实现。

先测试一下批量数据（batching data）的union：

scala> Seq("1","2","3","4").toDS.union(Seq("a","b","c","d").toDS).show
+-----+
|value|
+-----+
|    1|
|    2|
|    3|
|    4|
|    a|
|    b|
|    c|
|    d|
+-----+

再来测试一下流数据（streaming data）的union：

val lines1 = spark.readStream.format("socket").option("host", "localhost")

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

白乔

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark大数据处理讲课笔记1.6 掌握Scala数据结构

howard2005的专栏

03-01

1433

1. 掌握数组的使用； 2. 掌握列表的使用； 3. 掌握映射的使用； 4. 掌握集合的使用； 5. 掌握元组的使用

[Spark版本更新]--Spark-2.4.0 发布说明

欢迎来到我的博客，一起探索代码里的世界！

11-09

6536

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考： Sub-task [ SPARK-6236 ] - 支持大于2G的缓存块 [ SPARK-6237 ] - 支持上传块> 2GB作为流 [ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测 [ SPARK-11239 ] - 用于ML线性...

1 条评论您还未登录，请先登录后发表或查看评论

Spark实时项目第四天-ODS层实时计算分流(根据表分流到不同的主题中去)

SmallScorpion

05-16

1070

编写代码在原来得spark-gmall-dw-realtime项目中继续添加代码增加MyKafkaSinkUtil 在scala\com\atguigu\gmall\realtime\utils\MyKafkaSinkUtil.scala import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord} object MyKafkaSinkUtil { pr

Spark Streaming

wz_TXWY的博客

09-27

355

Spark StreamingCreate Repository 导读介绍入门原理操作 Table of Contents 1. Spark Streaming 介绍 2. Spark Streaming 入门 2. 原理 3. 操作 1. Spark Streaming 介绍导读流式...

Spark Streaming 双流 join

m0_48379126的博客

12-15

3129

需求：对mysql数据库中的order_info表和order_detail表进行流join 关联条件 order_info.id = order_detail.order_id

Spark Streaming实时流处理笔记（13)—— Spark Streamig 整合 Kakfa

一角残叶的博客

12-09

298

1 基于 Receiver 1.1 启动 Kafka 先启动 zookeeper

spark中wordcount执行的数据流向

huangyinzhao的博客

05-18

270

oozie与Spark的集成与数据处理

# 1. 介绍 ## 1.1 什么是Oozie Oozie是一个用于协调Hadoop作业（包括MapReduce、Pig、Hive等）执行的工作流调度系统。它允许用户定义一个工作流，其中包括一系列需要执行的动作...## 1.3 Oozie与Spark集成的意义 Ooz

Spark Streaming实时数据挖掘：原理、应用与优化策略

![Spark Streaming实时数据挖掘：...Apache Spark Streaming应运而生，作为Spark核心组件之一，它将实时数据流处理带入了一个新的高度。本章将简要介绍Spark Streaming的基本概念、起源以及它如何成为大规模数据处理

Spark实时项目第五天-从cannal分流到kafka到实时计算判断首单并处理同批次订单首单判定冲突(HBase)

SmallScorpion

05-17

279

增加依赖 <dependency> <groupId>org.apache.phoenix</groupId> <artifactId>phoenix-spark</artifactId> <version>4.14.2-HBase-1.3</version> </dependency> <dependency> <groupId>org.apache.s

Spark综合学习笔记（四）流式计算应用场景和处理模式

斯特凡今天也很帅的博客

11-17

1360

学习致谢： https://www.bilibili.com/video/BV1Xz4y1m7cv?p=39 流式计算应用场景介绍 1.双十一大屏 2.商品推荐 3.工业大数据 4.集群监控针对各种数据库，包括MySQL,HBase等进行监控针对应用进行监控，例如Tomcat,Nginx,Node.js 针对硬件的一些指标进行监控，例如CPU,内存，磁盘等 5.火车站，汽车站的班次信息牌 6.地震预警 7.支付宝异地付款 Streaming计算模式模式一、原生流处理模式二、微批处理（B

Spark Streaming与流处理

mxk4869的博客

07-14

276

Spark Streaming与流处理

spark业务开发-union合并(union)

w757227129的博客

01-15

1435

spark业务开发-union合并(union) 项目地址:https://gitee.com/cch-bigdata/spark-process.git 输入数据集1 id,name,profession,enroll,score 1,庄劲聪,经济学类,北京理工大学,551 2,吴雅思,经济学类,北京理工大学,529 3,周育传,经济学类,北京理工大学,682 4,丁俊伟,通信工程,北京电子科技学院,708 5,庄逸琳,通信工程,北京电子科技学院,708 6,吴志发,通信工程,北京电子科技学院,578

Spark实时项目第五天-Maxwell得安装及Maxwell版本的ODS层分流操作

SmallScorpion

05-16

447

Maxwell maxwell 是由美国zendesk开源，用java编写的Mysql实时抓取软件。其抓取的原理也是基于binlog。工具对比 Maxwell 没有 Canal那种server+client模式，只有一个server把数据发送到消息队列或redis。 Maxwell 有一个亮点功能，就是Canal只能抓取最新数据，对已存在的历史数据没有办法处理。而Maxwell有一个bootstrap功能，可以直接引导出完整的历史数据用于初始化，非常好用。 Maxwell不能直接支持HA，但是它支持断

《深入理解Spark》之SparkStreaming并行接收流数据

凌夜知惜

01-24

614

package com.lyzx.day31 import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.{SparkConf} class T1 { /** * 关于SparkStreaming的一个demo * @param ssc */ de...

Spark 运行模式与运行流程

Mr.pan felix的专栏

07-12

568

概述 Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce和Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计算框架，比如: Spark Core用于离线计算 Spark SQL用于交互式查询 Spark Streaming用于实时流式计算 Spark MLlib用于机器学习 Spark GraphX用于图计算 Spark VS MapReduce 这部分由于水平有限，只能转至其他大神的总结 www.cnblogs.com/dea

SparkStreaming实战：处理文件流

Movle

05-19

754

1.需求：利用SparkStreaming处理文件流： 2.代码： (1)pom.xml <dependencies>  <dependency> <groupId>org.apache.spark</groupId> <

Scala 运算符

lucasmaluping的专栏

11-11

217

Scala 运算符一个运算符是一个符号，用于告诉编译器来执行指定的数学运算和逻辑运算。 Scala 含有丰富的内置运算符，包括以下几种类型：算术运算符关系运算符逻辑运算符位运算符赋值运算符接下来我们将为大家详细介绍以上各种运算符的应用。算术运算符下表列出了 Scala 支持的算术运算符。假定变量 A 为 10，B 为 ...