一、Spark Streaming基本使用

本文介绍了流计算的基本概念和处理流程,重点讲解了Spark Streaming的原理,包括DStream的抽象概念,以及与Storm的对比。此外,还详细阐述了Spark Streaming中的数据实时采集、DStream操作和基本数据源,如文件流、套接字流和RDD队列流的应用。
摘要由CSDN通过智能技术生成

目录

 

一、流计算

1、流计算基本介绍

2、流计算处理流程

二、Spark Streaming

1、Spark Streaming基本原理

2、Spark Streaming与Storm的对比

3、DStream操作概述

4、 基本数据源


一、流计算

1、流计算基本介绍

(1)、流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低,

(2)、目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架

a、商业级:IBM InfoSphere Streams和IBM StreamBase

b、较为常见的是开源流计算框架,代表如下:

  • Twitter Storm:免费、开源的分布式实时计算系统,可简单、高效、可靠地处理大量的流数据

  • ahoo! S4(Simple Scalable Streaming System):开源流计算平台,是通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统

c、公司为支持自身业务开发的流计算框架:

  • Facebook Puma

  • Dstream(百度)

  • 银河流数据处理平台(淘宝)

2、流计算处理流程

传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中,之后由用户通过查询操作和数据管理系统进行交互

流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务

(1)数据实时采集

通常采集多个数据源的海量数据,需要保证实时性、低延迟与稳定可靠

目前有许多互联网公司发布的开源分布式日志采集系统

  • Facebook的Scribe

  • LinkedIn的Kafka

  • 淘宝的Time Tunnel

  • 基于Hadoop的Chukwa和Flume

二、Spark Streaming

1、Spark Streaming基本原理

Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里

Spark Streaming的基本原理是将实时输入数据流以时间片(秒级

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值