《spark streaming技术内幕及源码剖析》
spark streaming技术内幕及源码剖析
韩运畅
这个作者很懒,什么都没留下…
展开
-
3.7 spark streaming为什么会产生重复输出
因为spark有任务推测,task重试,stage重试,job重试。所以会产生结果有部分重复输出的问题。如果想要实现exactly once语义,配置这两项。设置spark.task.maxFailures=1,这样不会有task,stage,job重试,直接失败。设置任务推测关闭,spark.speculation=false...原创 2020-05-11 14:57:22 · 229 阅读 · 0 评论 -
3.8 消费速率的动态控制(反压机制)--令牌桶机制
什么是令牌桶机制有一个固定大小的桶,同时我们以一定的速率生产令牌,如果令牌数量超过了桶的大小则溢出,我们每处理一条数据就要取一张令牌,如果取不到令牌则阻塞。这里补充一下。限流的方式从简单的计数器到滑动窗口到漏桶再到令牌桶机制。这里简单说一下,令牌桶机制与漏斗机制相比优点是可以抗突发的数据流量。因为令牌桶里装的是令牌,数据可以缓存在别处,而漏斗中存的是数据一旦溢出便是真的溢出了。spark sreaming处理流程是:Streaming数据流被receiver接收后先进行解析,然后存入Itera原创 2020-05-11 14:48:33 · 242 阅读 · 0 评论 -
3.9 什么是状态操作
Spark streaming是按照Batch Duration来划分job的,但有时需要对某个时刻开始的某个指标进行跟踪和计算,比如当月最新销售额,网页的当天点击量。这方面的操作叫做状态操作。原创 2020-05-11 13:47:05 · 314 阅读 · 0 评论 -
2.1 RDD的组成部分
1. 对其他RDD的依赖2. 分区信息RDD3. 定义在它上面的转换4. RDD分区器(可选)5. 对所有分区优选位置的列表(可选)原创 2020-05-11 13:19:06 · 573 阅读 · 0 评论