Spark Streaming
韩运畅
这个作者很懒,什么都没留下…
展开
-
spark streaming---如何处理反压
spark streaming程序中当计算过程出现batch processing time > batch interval的情况时,意味着处理数据的速度小于接收数据的速度,如果这种情况持续过长的时间,会造成数据在内存中堆积,导致receiver所在executor内存溢出等问题(如果设置StorageLevel包含disk,则内存存放不下的数据会溢写到disk,加大延迟),可以通过设置参...原创 2020-05-04 15:55:35 · 239 阅读 · 0 评论 -
spark streaming--可优化的点
合理设置间隔时间,如果间隔时间过小,任务分发和提交带来的延迟副作用会变大合理使用persist,将数据备份到内存或磁盘控制batch size spark会将窗口间隔内的数据全部存入到内存,如果窗口过大,batch size过大,需要合理增加节点即使清理不再使用的数据,以确保spark有足够的内存空间。前面已说spark会将数据全部缓存到内存中,我们可以设置spark.cleaner.tt...原创 2020-05-04 15:53:33 · 182 阅读 · 0 评论 -
spark streaming的容错机制
Worker节点从Hdfs中读取数据Executor会将自身任务执行的元数据信息汇报给Driver,Driver将其记录到日志中。当一个Executor挂掉后,Driver可以根据该日志重启一个Executor,又因为数据依然存放在Hdfs中。所以容错OK。从kafka,flume这种数据源它的问题在于Driver重启Executor后,还需要原来的数据。Spark Streaming引...原创 2020-05-04 15:18:47 · 336 阅读 · 0 评论 -
spark streaming支持的输入源
基础的:socket与HDFS API兼容的任何文件系统上的文件好像还可以将内部的RDD转换为DStream高级的:KafkaFlume等等。。。原创 2020-05-04 14:42:15 · 391 阅读 · 0 评论 -
spark streaming的优缺点
优点:可以达到准实时的响应容错代价低可以让批操作与流操作相结合缺点:无法达到实时性的响应原创 2020-05-04 14:18:36 · 1567 阅读 · 0 评论 -
spark streaning--批处理间隔 滑动间隔 窗口间隔
滑动间隔和窗口间隔必须是批处理间隔的整数倍。spark streaming会将一个批处理时间间隔收集到的数据汇总起来作为一批数据让系统来处理。对于窗口操作而言,其数据是一个窗口间隔内的,每隔一个滑动间隔滑动一次,一般情况下滑动间隔和批处理间隔一致。窗口操作会使得部分数据重复被计算,spark做了优化,会记录重复计算的结果。...原创 2020-05-04 14:15:26 · 1955 阅读 · 0 评论 -
spark streaming--与spark的关系
spark streaming 抽象出了DStream 即离散数据流,DStream代表一系列连续的RDD,每个RDD代表不同时间段接收到的数据。Spark Streaming的数据一条一条的接收,并记录数据到达时间,按照时间间隔,再将窗口时间间隔内的数据批量处理。...原创 2020-05-04 14:02:36 · 306 阅读 · 0 评论 -
spark streaming的三类算子
transformationwindowoutput这里我没有把接收数据reciver归入算子原创 2020-04-28 15:53:19 · 177 阅读 · 0 评论