SparkStreaming基础

最新推荐文章于 2022-03-07 21:33:01 发布

追枫萨

最新推荐文章于 2022-03-07 21:33:01 发布

阅读量159

点赞数

分类专栏： Spark 文章标签： SparkStreaming 流计算 ubuntu

本文链接：https://blog.csdn.net/m0_38052384/article/details/100544108

版权

Spark 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

一资源：Spark编程基础(Python)

大数据之Spark入门教程(Python)

二流计算处理流程：

   1.数据实时采集-->多数据源的海量数据，实时性、低延迟、可靠性
       1.1 FaceBook的Scribe
       1.2 领英的Kafka
       1.3 hadoop平台的Flume
   2.数据实时计算
   3.数据实时查询

三例子：

目的：实时监控指定目录下文件(只能监控新增文件，不能监控到原有文件的修改)，统计每个单词的数目并输出

环境：ubuntu14、spark2.3、pycharm

创建"file:///home/hadoop/PycharmProjects/WordCount/src/SparkStreaming/DStream.py文件，文件内容如下

# python3
# -*- coding:utf-8 -*-
# @Time: 9/4/19 4:25 PM
# @Author: Damon
# @Software: PyCharm

'''
DStream是微小规模的批处理，每个批处理块相当于一个RDD
'''

from pyspark import SparkContext,SparkConf
from pyspark.streaming import StreamingContext


conf=SparkConf().setAppName("DStream").setMaster("local[*]")
sc=SparkContext(conf=conf)
#设置打印日志级别
sc.setLogLevel("ERROR")
#流计算的主入口，每10秒启动一次流计算
ssc=StreamingContext(sc,10)
#数据源
lines=ssc.textFileStream("file:///home/hadoop/PycharmProjects/WordCount/DStream_data")
#实时计算（转换）
words=lines.flatMap(lambda line:line.split(' '))
wordCounts=words.map(lambda x:(x,1)).reduceByKey(lambda a,b:a+b)
#s实时查询（打印）,必须传入参数,不传参的话没有输出
wordCounts.pprint(10)
#k开启流计算，会监控数据源，每10s进行一次流计算
ssc.start()
ssc.awaitTermination()

运行：需要进入DStream.py所在目录，/usr/local/spark/bin/spark-submit为spark安装目录

运行结果：

在监控数据源目录("file:///home/hadoop/PycharmProjects/WordCount/DStream_data")下添加file.txt，并写入两行数据保存，等10s中，命令行打印信息如下：

追枫萨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming基础

一资源：Spark编程基础(Python) 大数据之Spark入门教程(Python)二流计算处理流程： 1.数据实时采集-->多数据源的海量数据，实时性、低延迟、可靠性 1.1 FaceBook的Scribe 1.2 领英的Kafka 1.3 hadoop平台的Flume 2.数据实时...
复制链接

扫一扫