大数据-第12章 spark-streaming概况

1.流数据的特征
答:
①数据快速持续到达,潜在大小也许是无穷无尽的;
②数据来源从多,格式复杂;
③数据量大,但不关注存储,一旦经过处理,要么丢弃,要么归档存储;
④注重数据的整体价值,不过分关注各别数据;
⑤数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。
2.数据处理模式
答:
①批量处理:处理静态数据,如hadoop;
②实时计算:处理流数据,如spark streaming。
3.流计算
答:
实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低。
4.流计算系统的需求
答:
①高性能:处理大数据的基本条件;
②海量式:支持TB级数据甚至PB级的数据规模;
③实时性:保证较低的延迟时间,到达秒级别,甚至毫秒级别;
④分布式:支持大数据的基本架构,必须能够平滑扩展;
⑤易用性:能够快速进行开发和部署;
⑥可靠性:能可靠地处理流数据。
5.hadoop与流计算区别
答:
相同点:都是对数据进行计算分析;
不同点:hadoop主要是对大规模的静态数据进行处理,每台机器上运行MapReduce任务,最后汇总输出;流计算主要是进行实时数据进行。
6.传统数据处理流程
答:
①采集数据并存储在关系数据库等数据管理系统;
②用户通过查询操作和数据管理系统进行交互(但是存储的数据是旧的和用户需要主动发出查询来获取结果)。
7.流计算的处理流程
答:
①数据采集:采集多个数据源的海量数据,需要保证实时性、低延迟与稳定可靠;
②数据实时计算:对采集的数据进行实时的分析计算,并反馈实时结果;
③实时查询服务:经由流计算框架得出结果可供用户进行实时查询。展示或者存储。
8.传统计算处理与流计算处理的区别
答:
①流计算处理的是实时的数据,而传统的数据处理的是预先存储好的静态数据;
②用户通过流计算获取的是实时计算结果,通过传统计算获取的某一时刻的结果;
③流计算系统无需用户主动发出查询,实时查询服务可以主动将实时结果推送给用户,传统计算需要用户提交查询才能获取结果。
9.spark streaming的基本原理
答:
spark streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后进spark引擎以类似批处理的方式处理每个时间片的数据。
10.DStream
答:
spark streaming最主要的抽象对象是DStream(离散化数据流)表示连续不断的数据流,在内部实现上,spark streaming的输入数据按时间片分成一段一段,每一段数据转化为spark中RDD,这写分段就是DStream,并且对DStream的操作将转化为对相应的RDD操作。
11.spark streaming与strom区别
答:
①spark streaming实现的是秒级而strom实现的毫秒级;
②spark streaming是将DStream操作转化成对RDD操作,相遇strom的操作,RDD的操作更简单以及可以做到高效的容错处理,
12.spark streaming程序基本步骤
答:
①通过创建输入DStream来定义输入源;
②通过对DStream应用转化操作和输入操作来定义流计算;
③用过streamingContext.start()来开始接收数据和处理数据;
④用streamingContext.awaitTermination()方法来等待处理结果;
⑤可以通过streamingContext.stop()来手动结束流计算进程。
流程原理
在这里插入图片描述

流程原理
①用户编写数据程序输入,生成Drive
②Drive向资源管理者申请运行exceutor的资源
③资源管理器为其exceutor运行分配资源,并启动exceutor
④exceutor中的Receiver不断接受实时流程的数据
⑤将实时数据发送给streaming-context
⑥streaming-context将数据交给spark-context解析
(1).生成spark的RDD对象
(2).根据RDD对象生成DAG关系依赖图
(3).将DAG关系依赖图交给DAGScheduler
(4). DAGScheduler解析成一个个的stage
(5).将stage交给TaskScheduler
⑦exceutor向TaskScheduler申请task
⑧TaskScheduler将申请的task发送给exceutor,exceutor并执行task
⑨exceutor将执行结果返回给TaskSched,TaskScheduler将结果实时返回客户。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值