大数据-玩转数据-Spark-Structured Streaming 输出操作(python版)

本文介绍了在Python中使用Spark Structured Streaming进行数据处理的输出操作,包括不同的输出模式(Append、Complete、Update)以及如何配置writeStream方法。通过实例展示了socket输入流的数据处理,并分析了各种输出模式的效果。
摘要由CSDN通过智能技术生成

大数据-玩转数据-Spark-Structured Streaming 输出操作(python版)

1、说明
Structured Streaming流计算过程定义的DataFrame/Dataset结果,通过writeStream()方法写入到输出接收器,接收器对应关系如下:

接收器 支持输出模式
File接收器 Append
Kafka接收器 Append、Complete、Update
Foreach接收器 Append、Complete、Update
Console接收器 Append、Complete、Update
Memory接收器 Append、Complete

writeStream()方法包括以下几个主要函数
format : 接收器类型
outputMode :输出模式
queryName :查询名称
trigger :触发间隔时间

2、socket输入File接收append模式代码

vi kafkastructuredwordCountresultsave1.py
#/usr/bin/env python3
from pyspark.sql import SparkSession
from pyspark.sql.functions import split
from pyspark.sql.functions import explode
from pyspark.sql.functions import length


if __name__ == '__main__':

  spark =SparkSession.builder.appName
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值