spark-streaming
WQ同学
这个作者很懒,什么都没留下…
展开
-
spark从入门到放弃四十一:Spark Streaming(1) 简介
文章地址:http://www.haha174.top/article/details/251995 1.大数据实时计算介绍 1.Spark Streaming 其实就是一种spark 提供的对于大数据进行实时计算的一种框架,他的底层其实也是之前提到的spark core 基本的计算模型,还是基于内存的大数据实时计算模型。而且他的底层的组件或者叫做概念其实最核心的还是RDD.只不过,针...原创 2018-04-23 22:45:48 · 2897 阅读 · 0 评论 -
spark从入门到放弃五十二:Spark Streaming(12)结合spark Sql
spark从入门到放弃五十二:Spark Streaming(12)结合spark Sql原创 2018-05-06 21:17:35 · 3201 阅读 · 0 评论 -
spark从入门到放弃五十一:Spark Streaming(11)window 滑动窗口
1. 简介Spark Streaming 提供了滑动窗口的操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次落在窗口里面的RDD 数据,会被集合起来,然后生成新的RDD 会作为windows DStream 的一个RDD ,例如对每三秒钟执行一次滑动窗口计算。所以每个滑动窗口的操作,都必须只当两个参数,窗口的长度,以及滑动间隔,而且这两个参数都必须是batch 间隔的整原创 2018-05-06 19:50:32 · 6021 阅读 · 0 评论 -
spark从入门到放弃五十:Spark Streaming(10)实时黑名单过滤
spark从入门到放弃五十:Spark Streaming(10)实时黑名单过滤原创 2018-05-06 18:33:07 · 3291 阅读 · 0 评论 -
spark从入门到放弃四十九:Spark Streaming(9)updateStateByKey
spark从入门到放弃四十九:Spark Streaming(9)updateStateByKey原创 2018-05-06 17:00:51 · 3152 阅读 · 0 评论 -
spark从入门到放弃四十八:Spark Streaming(8)基于kafka 的实时计算
spark从入门到放弃四十八:Spark Streaming(8)基于kafka 的实时计算原创 2018-05-06 12:59:51 · 2926 阅读 · 0 评论 -
spark从入门到放弃四十七:Spark Streaming(7)基于hdfs 的实时计算
基于hdfs 文件的实时计算,其实就是监控一个hdfs 目录,只要其中有新文件出现,就实时处理。相当于处理实时的文件流。 spark Streaming 会监视指定的hdfs 目录,并且 处理出现再目录底下的文件,要注意的是所有放入到hdfs 目录中的文件都必须有相同的格式,必须使用移动或者重命名的方式将文件一如目录:一旦处理之后文件的内容即便改变了也不会处理了。 基于h’原创 2018-05-05 21:48:35 · 3195 阅读 · 0 评论 -
spark从入门到放弃四十六:Spark Streaming(6)DStream 和Receiver
spark从入门到放弃四十六:Spark Streaming(6)DStream 和Receiver原创 2018-05-05 20:54:24 · 3270 阅读 · 0 评论 -
spark从入门到放弃五十四:Spark Streaming(14)checkpoint
1.概述每一个spark streaming 应用正常来说都要7*24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此,对实时计算的要求,应该是必须能够与应用程序逻辑无关的失败,进行容错。 如果要实现这个目标,spark streaming 程序就必须将足够的信息checkpoint 到容错的存储系统上,从而让他能够从失败中进行恢复。有两种数据需要进行chec原创 2018-05-08 22:15:42 · 2785 阅读 · 0 评论 -
spark从入门到放弃四十三:Spark Streaming(3)与storm 对比
文章地址:http://www.haha174.top/article/details/256486 1.storm简介 Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传...原创 2018-04-24 00:01:03 · 4153 阅读 · 1 评论 -
spark从入门到放弃四十二:Spark Streaming(2) 工作原理
文章地址:http://www.haha174.top/article/details/256473 1.Spark Stream 简介 Spark Stream是spark core Api 的一种扩展,他可以用于大规模,高吞吐量,容错的实时数据流处理。它支持从多种数据源读取数据,比如kafka ,flume,ZeroMQ 等等并且能够使用类似高阶函数的复杂算法来进行数据处理,比如ma...原创 2018-04-23 23:46:52 · 3701 阅读 · 0 评论 -
spark从入门到放弃五十三:Spark Streaming(13)缓存于持久化
与RDD 类似,spark Streaming 也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream 调用persist ( ) 方法,就可以让spark Streaming 自动将该数据流中的所有产生的RDD 都持久化到内存中。如果要对于一个DStream 多次执行操作,那么对DStream 持久化是非常有用的。因为多次操作,可以共享一份数据。 对于基于窗原创 2018-05-07 23:58:56 · 3839 阅读 · 0 评论