大数据之存算分离架构研究

振宅的博客

已于 2023-07-02 12:09:06 修改

阅读量2k

点赞数

文章标签：大数据

于 2023-06-26 18:02:03 首次发布

本文链接：https://blog.csdn.net/gaozhenzhai/article/details/131402349

版权

存算分离架构是一种将数据分析层、计算层和存储层解耦合的数据架构设计，旨在解决数据灵活开放、独立扩展和资源隔离的需求。这种架构允许计算和存储独立扩展，提高业务稳定性，降低存储成本。它在公有云和私有化场景中逐渐普及，例如SnowFlake和TiDB都采用了类似的设计。存算分离有助于应对异构工作负载和扩缩容问题，通过独立的计算和存储服务提供更好的资源管理和性能体验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是存算分离？

存算分离架构是一种新的数据架构的设计范式，自上而下分为数据分析层、计算层和存储层，其中计算层和存储层解耦合，都是独立的分布式服务。其设计的目标是要解决三个需求：数据可以灵活开放给不同业务做数据分析、计算和存储独立扩展以及计算与存储的资源隔离，同时也提供与存算一体架构等同的存算性能。

随着硬件技术的快速进步，尤其是网络和存储设备的性能迅速提升，以及云计算厂商推动软硬件协同加速的云存储服务，越来越多的企业开始基于云存储来构建数据存储服务，或数据湖，因此就需要单独再建设一个独立的计算层来提供数据分析服务，这也就是存算分离架构（Disaggregated Storage and Compute Architecture）。

最近几年，存算分离架构不仅在公有云上广泛落地，在私有化场景下，也逐渐成为热点。但是需要特别强调的是，存算分离架构并不等同于采用兼容S3接口的对象存储来构建数据湖，也不是采用容器化来实现资源隔离或者弹性伸缩，更好的满足业务需求是存算架构升级的一个根本原因。

为什么需要存算分离?

异构的工作负载: 得益于现在云原生的环境，用户可以自由配置每台云服务器的cpu型号，内存，磁盘，带宽。但是存在的问题是适合高 I/O 带宽、轻计算的系统配置不适合复杂查询,而适合复杂查询的系统配置却不能满足高吞吐的要求。简单的理解为需要在计算和IO之间做平衡。
扩缩容: 由于计算和存储的耦合，当扩缩容的时候势必需要在节点之间移动数据，而节点同时需要对外提供计算服务，因此此时的性能可能会收到很大影响。如果存储分离，那么计算层和存储层可以独立增加减少节点而互不干扰。

从一个抽象的角度，其存储层和计算层相对独立，存储层采用HDFS或其他与Hadoop兼容存储（HCFS）甚至是关系型数据库，而计算层一般采用多样