大数据-玩转数据-Spark-Structured Streaming 输出操作(python版)
1、说明
Structured Streaming流计算过程定义的DataFrame/Dataset结果,通过writeStream()方法写入到输出接收器,接收器对应关系如下:
| 接收器 | 支持输出模式 |
|---|---|
| File接收器 | Append |
| Kafka接收器 | Append、Complete、Update |
| Foreach接收器 | Append、Complete、Update |
| Console接收器 | Append、Complete、Update |
| Memory接收器 | Append、Complete |
writeStream()方法包括以下几个主要函数
format : 接收器类型
outputMode :输出模式
queryName :查询名称
trigger :触发间隔时间
2、socket输入File接收append模式代码
vi kafkastructuredwordCountresultsave1.py
#/usr/bin/env python3
from pyspark.sql import SparkSession
from pyspark.sql.functions import split
from pyspark.sql.functions import explode
from pyspark.sql.functions import length
if __name__ == '__main__':
spark =SparkSession.builder.appName

本文介绍了在Python中使用Spark Structured Streaming进行数据处理的输出操作,包括不同的输出模式(Append、Complete、Update)以及如何配置writeStream方法。通过实例展示了socket输入流的数据处理,并分析了各种输出模式的效果。
最低0.47元/天 解锁文章
567

被折叠的 条评论
为什么被折叠?



