Spark版本定制:一. SparkStreaming 透彻理解三板斧之一

  

感谢DT大数据梦工厂支持提供以下内容,DT大数据梦工厂专注于Spark发行版定制。详细信息请查看

简介: 王家林:DT大数据梦工厂创始人和首席专家. 联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859


  1.  为什么以SparkStreaming作为切入点,进行对Spark剖析?

    一. Spark最开始就是原始的Spark Core,而Spark Streaming是Spark Core上的一个子框架,通过Spark一个子框架的彻底研究,进而精通Spark。

    二. Spark 有Spark SQL , Spark Streaming, Spark GraphX, Spark MLlib, Spark R等众多子框架,为什么选择Spark Streaming作为切入点呢?首先,除了Spark Core编程外,Spark SQL是使用最多的,但是Spark SQL涉及了太多SQL语法细节的解析和优化,SQL的解析和优化是重要的事情,但对于剖析Spark不是最重要的事情,由于有太多的语法解析需要研究,不适合作为一个子框架进行研究;而Spark R还不成熟,支持功能有限也排除;Spark GraphX在Spark历届版本中几乎没有改进,按照这种趋势的话,Spark官方是不是透漏出一个信号,GraphX的发展几乎到了尽头;对于Spark MLlib,涉及太多的数学知识,数学知识是重要的事情,但对于Spark的研究也不是最重要的事情,所以也不利于专注于Spark的研究;而Spark Streaming作为大数据流处理框架,几乎对Spark感兴趣的人中,超过50%的人认为Spark Streaming对他最有吸引力:

    1. 在大数据领域,一切跟流式计算无关的数据都是无效数据,流式处理是大数据实时性解决方案的具体实现。

    2. 流式数据是我们对大数据的初步印象,数据流进来立即进行反馈,而不是批处理和数据挖掘。

    3. Spark Streaming真正强悍的地方在于Spark Streaming,Spark SQL,Spark MLlib,Spark GraphX,Spark R一体化解决方案,而Spark Streaming作为数据接入的源头,其地位显而易见。

    4. Spark Streaming动态的接收,处理不断流入的数据,最容易出问题,最受关注的地方,也是最容易展露大数据魅力的地方。

    5. Spark Streaming最像Spark Core之上的一个应用程序,Spark Streaming作为接收数据源的数据,本身就是一个运行在Spark上的应用程序,最利于研究Spark运行的整个流程。

  2. 如何发现数据流入Spark Streaming中?

    技巧:放大SparkStreaming接收数据的interval即StreamingContext的batchDuration入参,这样通过historyServer可以完整的获取Spark Streaming接收并处理一次外接数据的所有job的具体细节。

    122103_YHqb_2728781.jpg

122323_X9Tw_2728781.jpg

122803_AGu8_2728781.jpg

123353_cghl_2728781.jpg

3. Spark Streaming

124443_gcRl_2728781.jpg

124556_Y45j_2728781.jpg

124802_Khwz_2728781.jpg



转载于:https://my.oschina.net/DTSpark/blog/668723

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值