解析数据架构:从传统到数据网格的转变
1. 传统数据架构的局限性
1.1 单体架构的困境
架构风格主要分为单体架构(所有代码的单一部署单元)和分布式架构(通过远程访问协议连接的多个部署单元)。单体数据平台架构的目标包括:
- 从企业内外的各个角落摄取数据,涵盖运营和交易系统以及外部数据提供商。例如,Daff的数据平台负责摄取媒体播放器性能、用户与播放器的交互、播放的歌曲等多种数据。
- 清洗、丰富和转换源数据,使其成为可满足不同消费者需求的可信数据。在Daff的例子中,将听众的点击流转换为有意义的听众旅程。
- 为各种有不同需求的消费者提供数据集,从数据探索和机器学习训练到商业智能报告。Daff平台必须通过分布式日志接口近乎实时地提供媒体播放器错误信息,同时提供特定艺术家记录的批量聚合视图以计算每月财务付款。
然而,随着解决方案的扩展,单体架构的局限性逐渐显现:
- 数据和数据源的普及与扩散 :随着数据变得无处不在,集中平台和团队在一个地方逻辑地消费和协调所有数据的能力减弱。以客户信息领域为例,组织内外提供客户信息的数据源越来越多,将数据摄取并协调到中央客户主数据管理下以获取价值的假设会造成瓶颈,减缓利用不同数据源的能力。
- 组织的创新议程和用例的扩散 :组织快速实验的需求引入了更多使用平台数据的用例,这意味着需要进行越来越多的数据转换。满足数据消费者需求的响应时间长一直是组织摩擦的根源,数据需求方与数据来源方之间的脱节阻碍了公司的数据驱动创新。
- 组织复杂性 :数据环境的波动性和持续变化使单体架构成