浪院长 | spark streaming的使用心得

最新推荐文章于 2024-07-29 09:10:44 发布

weixin_33939380

最新推荐文章于 2024-07-29 09:10:44 发布

阅读量65

点赞数

文章标签：大数据数据库

版权声明：本文为博主原创文章，未经博主同意不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/82505159

今天。主要想聊聊spark streaming的使用心得。

1，基本使用

主要是转换算子。action。和状态算子，这些事实上，就依照api手冊或者源代码里接口介绍结合业务来编码。

事实上。想用好spark streaming 掌握spark core，spark rpc，spark 任务调度，spark 并行度等原理还非常有必要。

2，中间状态缓存

说到中间算子大家肯定都会想到UpdateStateByKey等状态。里面非常多注意事项。比方顺序性。key的超时机制维护。这个适合数据量不多，尤其是key的维度不多。value不大的情况。

当然数据量上来了，要想维护中间状态怎么办？事实上这个时候肯定是第三方存储，比方redis，alluxio。redis更适合那种key带超时机制的。并且数据量肯定不能过大。

而alluxio就非常适合那种高吞吐量的。比方去重统计。

3。结果输出

direct streaming能保证仅一次处理，可是要求输出存储支持密等性。或者主动将结果更改为存在更新不存在插入。

当然，假设外部存储系统支持事务那就更嗨。能实现恰一次处理。

实际上在offset维护这个层面上，spark streaming 不同版本号于kafka不同版本号结合实现有非常大不同。

4。监控告警及故障自己主动恢复

我认为对于监控告警及故障自己主动恢复。重要程度不亚于业务场景。由于再好的业务实现。架不住系统挂掉你不知道。由于你总不能二十四小时盯着系统。并且非常多公司对故障自己主动恢复都有kpi，比方3min，人工去检測故障并恢复不太可能，须要自己实现一套监控系统。

5，调优

调优对于spark streaming非常重要。由于一个批次处理延迟就会导致job堆积，结果输出延迟，深圳任务挂掉数据丢失。调优事实上最注重对spark 原理把控，数据量的了解及资源和数据的关系。

6，源代码

源代码阅读，为了帮助大家更透彻的理解原理。

主要会分三块：

spark streaming 与kafka-0.8.2 direct stream。

spark streaming 与kafka-0.8.2 receiver based stream。

spark streaming 与kafka-0.10.2 direct api。

这些内容比較多。本周日晚上八点到十点浪尖准备搞个qq直播。对这些内容有兴趣的小伙伴能够扫码參团，费用不高。算是对浪尖创作的支持吧。

当然，准备是两到三次。每次两个小时，实际次数看效率。

參与直播的直接联系微信 158570986

640?wx_fmt=png

当然，要是喜欢浪尖，更希望增加浪尖知识星球，球友能够免费參与直播。

640?wx_fmt=jpeg

weixin_33939380

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浪院长 | spark streaming的使用心得

版权声明：本文为博主原创文章，未经博主同意不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/82505159 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。