SparkStreaming介绍以及演示示例程序

简介:SparkStreaming是spark的一个模块,进行实时流数据的处理,如何处理呢,就是把数据流沿用一系列的批次数据,然后用DStream的抽象封装

那么DStream是什么呢?RDD + 时间 = 有一个抽象的DStream,代表一个连续的数据流

我们都知道,spark的抽象是RDD,用SparkContext抽象进行封装,sparkSQL的抽象是DataSet/DataFrame,用SparkSession或者SQLContext抽象进行封装,那么sparkStreaming的抽象是DStream,用StreamingContext抽象进行封装

DStream的特点:

1.可以将流式计算分解成一系列确定并且较小的批处理作业;

2.可以将失败或者执行较慢的任务在其他节点并行执行;

3.有较强的容错能力

 

演示示例程序:

首先接受socket端口中的数据,然后进行分析

启动socket服务端和客户端(命令是nc  -lk 9999,如果显示没有找到这个命令,su命令转换到root用户,使用命令yum -y install nc进行下载,然后使用命令netstat -natpl | grep 9999进行查看)

查看进程:

接下来我们再启动一个命令分析程序结果

命令如上,做一个wordcount程序

会得到如上界面,那么接下来就可以在一边产生数据,一遍分析数据了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值