读书笔记(SRE:Google运维解密):第25章 数据处理流水线

本文探讨了经典数据处理方式——数据流水线,它由类似Cron的调度程序控制,常用于大数据的周期性或持续性处理。简单流水线在理解和逻辑上清晰,但效率可能不是最优。多相流水线虽有助于处理复杂度,但也带来脆弱性和效率问题,如任务超时、资源耗尽。分布式环境中的周期性数据流水线还面临惊群效应和摩尔负载模式等挑战。
摘要由CSDN通过智能技术生成
  • 经典的数据处理方式是通过一个程序读取输入,执行某种模式变换,然后输出新的数据。一般来说,这种程序由类似于Cron的某个周期性的调度程序控制。这种设计模式被称为数据流水线(data pipeline)。经典的数据处理方式是通过一个程序读取输入,执行某种模式变换,然后输出新的数据。一般来说,这种程序由类似于Cron的某个周期性的调度程序控制。这种设计模式被称为数据流水线(data pipeline)。
     
  • 简单流水线设计模式与大数据
    • 对大数据进行周期性的或者是持续性的变形操作的程序通常被称为“简单的,单相流水线”(simple,one-phasepipeline)
    • 由于大数据与生俱来的海量级别和处理的高复杂度,这种程序通常会被串联起来执行,一个程序的输出作为另外一个程序的输入。这种编排方式有很多种原因,但是最常见的原因是,这样设计有助于理解系统的逻辑,但是这在系统效率方面并不一定是最优方案。将这样构建的程序称为多相流水线(multiphase pipeline),因为整个链条中的每一个程序都是一个独立的数据处理单元。
       
  • 周期性的数据流水线非常实用,例如MapReduce和Flume

周期性的数据流水线模型是非常脆弱易坏的。工作进程数量、运行周期、分块处理技术,以及其他参数仔细调校过后,整个流水线的性能可能很稳定。但是随着数据量的自然增长等种种变化会对整个系统造成压力,导致各种各样的问题出现。这种问题包括任务运行超时、资源耗尽,某些分块处理卡住导致整体运维压力上升等。
 

  • 完成整个流水线要依赖于整个流水线中性能最差的分块的完成。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值