spark发行版笔记2

最新推荐文章于 2022-05-31 18:36:22 发布

Frank201608

最新推荐文章于 2022-05-31 18:36:22 发布

阅读量591

点赞数

本文链接：https://blog.csdn.net/zhumr/article/details/51295957

版权

spark发行版笔记2

感谢DT大数据梦工厂支持提供以下内容，DT大数据梦工厂专注于Spark发行版定制。详细信息请查看

简介：王家林：DT大数据梦工厂创始人和首席专家. 联系邮箱18610086859@126.com 电话：18610086859 QQ:1740415547 微信号：18610086859

上节课我们采用了降维的方式查看了整个spark streaming的大概运行的过程，再次强调，spark streaming 其实是构建在spark core之上的一个应用程序，如果要构建一个强大的spark应用程序，spark streaming 是一个值得借鉴的参考，spark streaming涉及多个job交叉配合，里面涉及到了spark的所有的核心组件，如果对spark streaming 精通了的话，可以说就精通了整个spark,所以精通掌握spark streaming是至关重要的。

以下是spark官方提供的图片

对于spark sql 来说，主要是sql语句语法的解析，对于我们理解spark核心的来说，是重要的，但是却不是最为重要的。对于机器学习来说，有太多的数学知识，对于理解spark的核心（构建一个类似spark streaming,一个spark core 之上的应用程序或者说应用框架）来说也不是最重要的。对于图计算来说，里面主要涉及到的是图论的知识，对于去重新根据实际的业务需求构建或者优化一个适合业务的基于spark core之上的应用而言，也不是最为重要的。总而言之，目前最为重要的是将spark streaming逐步精通，能够构建一个像spark streaming这样的优秀的框架，并不断的对其进行优化，然后再结合机器学习，图计算等spark的子框架。从而做出一个优秀的spark 发行版。

spark streaming是一种构建在spark上的实时计算框架，它扩展了spark处理大数据流式数据的能力，是spark 核心api的扩展。可以实现高吞吐的，可扩展的，高容错的，可伸缩的实时流处理框架。

最让人激动的是，spark streaming还可以使用spark 的其他的子框架，诸如集群学习，图计算对数据进行处理。

spark 的各个子框架都是基于spark core的。spark streaming在内部的处理机制是接受实时流的数据，并根据一定的时间间隔分成一批一批的数据，然后通过spark engine处理这些批数据，最后得到处理后的一批一批的数据。

对应的批数据，在spark内核对应RDD，在spark streaming中对应DStream ，一个DStream相当于RDD的模板，对应一组RDD（RDD的一个序列）

通俗点理解的话，在数据分成一批一批后，通过一个队列，然后spark引擎从该队列中依次一个一个的取出批数据，把批数据封装成一个DStream,因为DStream是RDD的模板，是RDD的一个逻辑级别的抽象，所以实质上是把数据封装成为物理级别的RDD.

综上，spark streaming内部处理机制流程如下