[笔记迁移][Spark][2]Spark概述

  1. Spark的核心,即一种新型的大数据计算框架(通用的大数据快速处理引擎),可以基于Hadoop上存储(hdfs、Hive)的大数据进行计算

  2. Spark代替Hadoop? No!!!
    Spark能够替代的只是Hadoop的一部分,如MapReduce计算框架,Hive查询引擎。Spark本身不提供大数据存储功能和调度功能!

  3. Spark主要基于内存进行计算, 较基于磁盘和网络的MapReduce( Shuffle及MapReduce的计算模型,就决定了MapReuce只适合处理对速度需求不敏感的离线批处理日志任务 )快十倍到百倍不等。
    SparkMemoryModel

  4. Spark整体架构
    SparkConstructure

  5. Spark SQL与Hive
    SparkSQL-Hive

  6. Spark Streaming 与 Storm
    (1)Storm的计算模型:一种非常纯粹的、针对每条记录的、流式实时计算框架。但由于每一条记录都会被处理,故吞吐量不高。【为什么吞吐量不高?每条数据来后直接处理,那么自然会产生每条数据的处理开销,即Storm的很多可用计算资源都会被耗费在大量的操作中,如数据的传输、校验、通信等】

    (2)Spark Streaming的计算模型:基于Batch,把时间间隔Batch Interval内传来鹅数据收集起来,然后一次性作为一个Batch给Spark Streaming Application进行处理。因此严格意义上来说,Spark Streaming不是纯粹的实时计算框架,更多的是一种准实时计算框架。因为每条数据的处理额外开销减少,对一个Batch才产生数据传输、校验、通信的开销,所以Spark Streaming的吞吐量远远高于Storm。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值