大数据-玩转数据-Spark Streaming 数据输出（python版）

最新推荐文章于 2022-07-01 19:11:44 发布

人猿宇宙

最新推荐文章于 2022-07-01 19:11:44 发布

阅读量630

点赞数

分类专栏：大数据-玩转数据-Spark 文章标签： big data spark hadoop

本文链接：https://blog.csdn.net/s_unbo/article/details/122490685

版权

大数据-玩转数据-Spark Streaming 数据输出（python版）

外部系统需要使用Spark Streaming处理后的数据，这些数据在输出可以存储到文本文件或关系数据库中
1、输出到文本文件中
把DStream输出到文本文件，可直接调用saveAsTextFile()方法，下面是词频统计存储到文本文件的代码实现。
数据终端执行nc

[root@hadoop1 temp]# nc -lk 9999
hadoop
spark
hadoop 
hadoop
hive
kafka

流计算终端

[root@hadoop1 temp]# vi sparkstreamwordcontsave.py

#!/usr/bin/svn python3

from  __future__ import print_function
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":
	if len(sys.argv) != 3:
		print("Usage :please input  **.py <hostname>  <port>")
		exit(-1)
	sc = SparkContext(appName = "sparkstreamingstatefulwordcount")
	ssc = StreamingContext(sc,1)
	ssc.checkpoint("file:///home/hadoop/temp/streaming/checkpoint")
	#为了防止数据丢失，引入checkpoint
	initialStateRDD = sc.parallelize([(u'hello',1),(u'world',1)])
	def updateFunc(new_values,last_sum)

最低0.47元/天解锁文章

人猿宇宙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
大数据-玩转数据-Spark Streaming 数据输出（python版）

大数据-玩转数据-Spark Streaming 数据输出外部系统需要使用Spark Streaming处理后的数据，这些数据在输出可以存储到文本文件或关系数据库中1、输出到文本文件中把DStream输出到文本文件，可直接调用saveAsTextFile()方法，下面是词频统计存储到文本文件的代码实现。数据终端执行nc[root@hadoop1 temp]# nc -lk 9999hadoopsparkhadoop hadoophivekafka流计算终端[root@hadoop
复制链接

扫一扫

专栏目录