（2）source和sink详解

最新推荐文章于 2024-06-13 09:30:51 发布

longdada007

最新推荐文章于 2024-06-13 09:30:51 发布

阅读量3.1w

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18522601/article/details/96473680

版权

前面第一小节也提到了，Structured Streaming会增量的从source中读取数据，映射成一张表，对该表进行增量的查询分析，然后组合中间状态，再把结果输出到结果表，然后刷到外部存储系统sink。本小节主要是详细讲解source 和sink。1. source目前支持的内置source有：1） File Source从给定的目录读取数据，目前支持的格式有text...

摘要由CSDN通过智能技术生成

前面第一小节也提到了，Structured Streaming会增量的从source中读取数据，映射成一张表，对该表进行增量的查询分析，然后组合中间状态，再把结果输出到结果表，然后刷到外部存储系统sink。

本小节主要是详细讲解source 和 sink。

1. source

目前支持的内置source有：

1） File Source

从给定的目录读取数据，目前支持的格式有text,csv,json,parquet。容错，文件必须原子操作的方式放置到指定的目录下，很多文件系统支持的move操作即可实现。

path:输入目录，对所有的文件格式通用。

maxFilesPerTrigger:每次触发读取文件的最大数。

latestFirst:是否先处理最新加入的文件，当有很多文件时，该参数有用（默认是false）。

fileNameOnly:检测新文件是否只根据文件名称，而不是整个文件路径，默认是false。假如，该值设置为true，那么下列文件会被认为是同一个文件：

"file:///dataset.txt"
"s3://a/dataset.txt"
"s3n://a/b/dataset.txt"
"s3a://a/b/c/dataset.txt"

2） Kafka Source:从kafka拉取数据。仅兼容kafka 0.10.0或者更高版本。容错。

3） Socket Source(for testing):

从一个连接中读取UTF8编码的文本数据。不容错。

该source的配置主要是两个host 去链接的目标主机； port 去连接的目标端口。

4） Rate Source（for testing）

最低0.47元/天解锁文章

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
（2）source和sink详解

前面第一小节也提到了，Structured Streaming会增量的从source中读取数据，映射成一张表，对该表进行增量的查询分析，然后组合中间状态，再把结果输出到结果表，然后刷到外部存储系统sink。本小节主要是详细讲解source 和sink。1. source目前支持的内置source有：1） File Source从给定的目录读取数据，目前支持的格式有text...
复制链接

扫一扫

longdada007 CSDN认证博客专家 CSDN认证企业博客

码龄10年

38: 原创

53万+: 周排名

221万+: 总排名

7万+: 访问

: 等级

614: 积分

24: 粉丝

15: 获赞

0: 评论

84: 收藏

私信

关注

分类专栏

JVM 1篇
Review 13篇
Kafka
ES
容器大数据 2篇
Linux 3篇
Azkaban
CDH 1篇
StructuredStreaming
Flume 1篇
Hbase 1篇
Hadoop 2篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。