一、Spark Streaming基本使用

最新推荐文章于 2023-03-20 14:11:36 发布

嘻哈吼嘿呵

最新推荐文章于 2023-03-20 14:11:36 发布

阅读量416

点赞数

分类专栏： # Spark Streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s294878304/article/details/100185500

版权

本文介绍了流计算的基本概念和处理流程，重点讲解了Spark Streaming的原理，包括DStream的抽象概念，以及与Storm的对比。此外，还详细阐述了Spark Streaming中的数据实时采集、DStream操作和基本数据源，如文件流、套接字流和RDD队列流的应用。

摘要由CSDN通过智能技术生成

目录

一、流计算

1、流计算基本介绍

2、流计算处理流程

二、Spark Streaming

1、Spark Streaming基本原理

2、Spark Streaming与Storm的对比

3、DStream操作概述

4、基本数据源

一、流计算

1、流计算基本介绍

（1）、流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低，

（2）、目前有三类常见的流计算框架和平台：商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架

a、商业级：IBM InfoSphere Streams和IBM StreamBase

b、较为常见的是开源流计算框架，代表如下：

Twitter Storm：免费、开源的分布式实时计算系统，可简单、高效、可靠地处理大量的流数据
ahoo! S4（Simple Scalable Streaming System）：开源流计算平台，是通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统

c、公司为支持自身业务开发的流计算框架：

Facebook Puma
Dstream（百度）
银河流数据处理平台（淘宝）

2、流计算处理流程

传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中，之后由用户通过查询操作和数据管理系统进行交互

流计算的处理流程一般包含三个阶段：数据实时采集、数据实时计算、实时查询服务

（1）数据实时采集

通常采集多个数据源的海量数据，需要保证实时性、低延迟与稳定可靠

目前有许多互联网公司发布的开源分布式日志采集系统

Facebook的Scribe
LinkedIn的Kafka
淘宝的Time Tunnel
基于Hadoop的Chukwa和Flume

二、Spark Streaming

1、Spark Streaming基本原理

Spark Streaming可整合多种输入数据源，如Kafka、Flume、HDFS，甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库，或显示在仪表盘里

Spark Streaming的基本原理是将实时输入数据流以时间片（秒级

最低0.47元/天解锁文章

嘻哈吼嘿呵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一、Spark Streaming基本使用

目录一、流计算1、流计算基本介绍2、流计算处理流程二、Spark Streaming1、Spark Streaming基本原理2、Spark Streaming与Storm的对比3、DStream操作概述4、基本数据源一、流计算1、流计算基本介绍（1）、流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低，（2）、目前有三类常见的流计算框...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。