一、Spark Streaming
Spark Streaming 是核心Spark API的扩展,可实现实时数据的可扩展,高吞吐量,容错处理。数据可以从许多来源(如Kafka,Flume,Kinesis,或TCP套接字)中获取,并可以使用高级函数进行处理,处理完后的数据可以推送到文件系统,数据库和实时仪表板。

在内部,他的工作原理如下,Spark Streaming接收实时输入数据流并将数据分成批处理,然后由Spark引擎处理以批处理生成最终结果流。

二、实时项目需求及架构设计
1、项目需求分析
- 数据采集平台
本文详细介绍了如何使用Spark Streaming构建一个实时大数据教育平台,涵盖了项目需求分析、技术选型、环境准备、项目代码实现和调优。通过对接Kafka,实现了注册人数、学员做题正确率、页面转换率等关键指标的实时统计,并提供了相关代码示例和调优策略,确保数据不丢失和系统高吞吐量。
订阅专栏 解锁全文
1302

被折叠的 条评论
为什么被折叠?



