(2)source和sink详解

前面第一小节也提到了,Structured Streaming会增量的从source中读取数据,映射成一张表,对该表进行增量的查询分析,然后组合中间状态,再把结果输出到结果表,然后刷到外部存储系统sink。本小节主要是详细讲解source 和sink。1. source目前支持的内置source有:1) File Source从给定的目录读取数据,目前支持的格式有text...
摘要由CSDN通过智能技术生成

前面第一小节也提到了,Structured Streaming会增量的从source中读取数据,映射成一张表,对该表进行增量的查询分析,然后组合中间状态,再把结果输出到结果表,然后刷到外部存储系统sink。

本小节主要是详细讲解source 和 sink。

1. source

目前支持的内置source有:

1) File Source

从给定的目录读取数据,目前支持的格式有text,csv,json,parquet。容错,文件必须原子操作的方式放置到指定的目录下,很多文件系统支持的move操作即可实现。

path:输入目录,对所有的文件格式通用。

maxFilesPerTrigger:每次触发读取文件的最大数。

latestFirst:是否先处理最新加入的文件,当有很多文件时,该参数有用(默认是false)。

fileNameOnly:检测新文件是否只根据文件名称,而不是整个文件路径,默认是false。假如,该值设置为true,那么下列文件会被认为是同一个文件:

"file:///dataset.txt"
"s3://a/dataset.txt"
"s3n://a/b/dataset.txt"
"s3a://a/b/c/dataset.txt"

2) Kafka Source:从kafka拉取数据。仅兼容kafka 0.10.0或者更高版本。容错。

3) Socket Source(for testing):

从一个连接中读取UTF8编码的文本数据。不容错。

该source的配置主要是两个host 去链接的目标主机; port 去连接的目标端口。

4) Rate Source(for testing

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值