spark-streaming

找出所有有效数据,要求电话号码为11位,但只要列中没有空值就算有效数据。

按地址分类,输出条数最多的前20个地址及其数据。

代码讲解:

导包和声明对象,设置Spark配置对象和SparkContext对象。

使用Spark SQL语言进行数据处理,包括创建数据库、数据表,导入数据文件,进行数据转换。

筛选有效数据并存储到新表中。

按地址分组并统计出现次数,排序并输出前20个地址。

Spark Streaming介绍Spark Streaming概述:

用于流式计算,处理实时数据流。

支持多种数据输入源(如Kafka、Flume、Twitter、TCP套接字等)和输出存储位置(如HDFS、数据库等)。

Spark Streaming特点:

易用性:支持Java、Python、Scala等编程语言,编写实时计算程序如同编写批处理程序。

容错性:无需额外代码和配置即可恢复丢失的数据,确保实时计算的可靠性。

整合性:可以在Spark上运行,允许重复使用相关代码进行批处理,实现交互式查询操作。

Spark Streaming架构:

驱动程序(StreamingContext)处理数据并传给SparkContext。

工作节点接收和处理数据,执行任务并备份数据到其他节点。

背压机制协调数据接收能力和资源处理能力,避免数据堆积和资源浪费。

Spark Streaming实操词频统计案例:

使用ipad工具向999端口发送数据,Spark Streaming读取端口数据并统计单词出现次数。

代码配置包括设置关键对象、接收TCP套接字数据、扁平化处理、累加相同键值对、分组统计词频。

启动和运行:

启动netpad发送数据,Spark Streaming每隔三秒收集和处理数据。

代码中没有显式关闭状态,流式计算默认持续运行,确保数据处理不间断。

DStream创建DStream创建方式:

RDD队列:

通过SSC创建RDD队列,将RDD推送到队列中作为DStream处理。

自定义数据源:下节课详细讲解。

RDD队列案例:循环创建多个RDD并推送到队列中,使用Spark Streaming处理RDD队列进行词频统计。

代码包括配置对象、创建可变队列、转换RDD为DStream、累加和分组统计词频。

结果展示:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值