Spark Streaming之:一、概述介绍
文章目录
一、流计算简介
1. 流数据的特征
数据密集型,数据 大量、快速、时变的流形式。
2. 流计算
秉承的基本概念是数据的价值随着时间的流逝而降低,如用户点击量。因此,这些数据应该立即处理,而不是缓存起来进行批量处理。为了及时处理流数据,就需要一个低延迟、可扩展、高可靠的处理引擎。
- a. 高性能:如每秒处理几十万条数据
- b. 海量式:支持TB级甚至是PB级的数据规模
- c. 实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别
- d. 分布式:支持大数据的基础架构,必须能够平滑扩展
- e. 易用性:能够快速进行开发和部署
- f. 可靠性:能可靠地处理流数据
3. 流计算框架
- 目前常见的三类流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架。
- 商业级:IBM InfoSphere Stream和IBM StreamBase
- 较为常见的开源流计算框架: