读书笔记（SRE：Google运维解密）：第25章数据处理流水线

最新推荐文章于 2023-12-31 01:45:30 发布

github_37320188

最新推荐文章于 2023-12-31 01:45:30 发布

阅读量329

点赞数

分类专栏：读书笔记（SRE：Google运维解密）文章标签：运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_37320188/article/details/109689412

版权

本文探讨了经典数据处理方式——数据流水线，它由类似Cron的调度程序控制，常用于大数据的周期性或持续性处理。简单流水线在理解和逻辑上清晰，但效率可能不是最优。多相流水线虽有助于处理复杂度，但也带来脆弱性和效率问题，如任务超时、资源耗尽。分布式环境中的周期性数据流水线还面临惊群效应和摩尔负载模式等挑战。

摘要由CSDN通过智能技术生成

经典的数据处理方式是通过一个程序读取输入，执行某种模式变换，然后输出新的数据。一般来说，这种程序由类似于Cron的某个周期性的调度程序控制。这种设计模式被称为数据流水线（data pipeline）。经典的数据处理方式是通过一个程序读取输入，执行某种模式变换，然后输出新的数据。一般来说，这种程序由类似于Cron的某个周期性的调度程序控制。这种设计模式被称为数据流水线（data pipeline）。
简单流水线设计模式与大数据
- 对大数据进行周期性的或者是持续性的变形操作的程序通常被称为“简单的，单相流水线”（simple,one-phasepipeline）
- 由于大数据与生俱来的海量级别和处理的高复杂度，这种程序通常会被串联起来执行，一个程序的输出作为另外一个程序的输入。这种编排方式有很多种原因，但是最常见的原因是，这样设计有助于理解系统的逻辑，但是这在系统效率方面并不一定是最优方案。将这样构建的程序称为多相流水线（multiphase pipeline），因为整个链条中的每一个程序都是一个独立的数据处理单元。
周期性的数据流水线非常实用，例如MapReduce和Flume

周期性的数据流水线模型是非常脆弱易坏的。工作进程数量、运行周期、分块处理技术，以及其他参数仔细调校过后，整个流水线的性能可能很稳定。但是随着数据量的自然增长等种种变化会对整个系统造成压力，导致各种各样的问题出现。这种问题包括任务运行超时、资源耗尽，某些分块处理卡住导致整体运维压力上升等。

完成整个流水线要依赖于整个流水线中性能最差的分块的完成。

最低0.47元/天解锁文章

github_37320188

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。