镜舟科技孟庆欢：StarRocks 湖仓架构，AI数智化时代的数据驱动力-CSDN博客

本文链接：https://blog.csdn.net/YMPzUELX3AIAp7Q/article/details/141075027

大数据产业创新服务媒体

——聚焦数据 · 改变商业

数智化浪潮席卷全球，各行各业站上转型升级的路口，迎接新的机遇与挑战。进入2024年后，以智能科技为核心的新质生产力全面爆发，AI大模型作为新时代产业革新的领航者，为千行百业的数智化转型创造出无限可能。

洞察时代先机，共铸行业未来。7月24日，数据猿以“数智新质·力拓未来”为主题，举办“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”，与行业精英、学术专家、企业领袖共同探讨在新质生产力的大背景下，AI大模型在推动企业数智化转型升级中的关键作用，深入剖析AI大模型的创新发展机遇、前沿技术应用以及行业落地实践。

作为本次论坛的主要嘉宾，镜舟科技客户成功团队负责人孟庆欢分享了其对数智化时代数据驱动力的看法。

大多企业都在与数据“缠斗”

数智化时代，数据成为企业的宝贵资产，亦是推动企业突破、创新的关键动力。孟庆欢在演讲中提到，现在越来越多企业决策者已经意识到，企业的高速发展要依靠数据来驱动和支撑。但同时有两个数字不容忽视：一是85%的大数据项目最终以失败告终；二是87%的数据科学项目仅仅停留在实验室阶段，并没有被实际应用到生产环境中。

企业在数据应用中存在的困难，主要体现在基础设施和数据工程层面。不同的数据应用场景需要不同的数据技术能力和架构。例如：

报表、数据大屏场景是典型的数仓场景，涉及结构化数据的清洗和加工、应用。

数据工程场景是企业内部的各种类型数据（业务、机器、人为数据等）被汇总、转换和加工，进一步挖掘价值的过程。

实时场景则是通过流式数据加工引擎，将数据送到实时数据库中供业务调用。

机器学习与数据科学场景则需要结合AI计算和处理框架，在模型中进行训练、发布，最后落地应用。

在这些典型场景都包含复杂的业务交互和处理，处理这些数据需要选择不同的组件和工具，来适配企业内部不同的数据流转过程和架构。

不同团队在数据应用过程中，形成了一道道无形的墙阻碍着企业内部的数据共享、数据流通和数据的融合应用，这才导致了企业内部的“数据缠斗”现象。对于企业而言，要想让数据、技术架构以及团队充分释放价值，依旧面临巨大的挑战。

企业需要什么样的数据架构？

企业需要数据架构来支撑不同业务、不同数据的处理，以便让数据能更好地为一线人员应用。数据仓库和数据湖作为两种不同的存储、管理海量数据的架构，在当下受到广泛讨论。

孟庆欢介绍，数据仓库的发展时间很长，从上世纪80年代一直到现在，其不断迭代更新，引入新的能力，赋能技术工程师挖掘数据价值。

通常，数据录入到数据仓库架构中，需要经历很多清洗加工环节，能过滤掉杂乱无章、没有严格规划或者定义过的数据。当数据按照一定的格式进行组织后，更容易找到相应的数据及数据之间的关联。这也就意味着数据仓库的数据质量、数据价值相对有保障。

同时，孟庆欢也指出了数据仓库在数据多样化、数据孤岛问题、成本等方面的不足。他提到，数据仓库主要聚焦于结构化的数据，对于企业内的半结构化和非结构化数据，如机器的日志、采集的信号、音视频、图片等，数据仓库难以处理。

此外，由于数据仓库的容量有限，在应用过程中容易产生数据孤岛。对于数据规模较为庞大的企业来说，若完全依赖于数据仓库，通常要面对不小的成本。

孟庆欢还介绍了数据湖的发展历程以及现代化数据湖的优劣势。他表示，数据湖是近年来兴起的技术架构概念，但其实数据湖在多年前已经被提出，那时更多依托于底层的文件系统和磁盘的阵列系统来存储各种各样的业务数据。

他谈到，现代化的数据湖具有统一的数据存储，可以大批量地进行导入。有了统一的数据录入、数据存储口径，再去加工不同业务所需要的数据，门槛自然而然就降低了。此外，数据湖的架构相对开放，通常以开源的文件格式供其他引擎调用。因此，企业不用担心数据被锁定在技术架构中导致难以扩展和替换的问题。

但是，数据湖在数据分析性能、数据管理与治理方面也存在不足。孟庆欢指出，在目前的场景中，数据湖的分析处理性能以小时级和分钟级为主，面对实时的处理需求，数据湖难以满足。而在数据管理过程中，因为数据湖中包含各种各样的数据，对于大型企业而言，要对数据湖中的数据进行管理，难度相对较大。

总体来看，数据仓库和数据湖在数据处理上各有优劣。而随着技术的不断更迭，数据仓库与数据湖的能力呈现明显的融合趋势，开辟出了一条湖仓一体的发展路线。

湖仓新范式有何能力？

在湖仓融合的架构中，所有数据统一录入到湖中，再按需供业务端进行数仓的应用建设。在这个过程中，湖与仓不再割裂，充分融合并共享一份数据，彼此之间互联互通。

孟庆欢以开源产品StarRocks的湖仓能力为例，进一步介绍了其能力与特点。他表示，在StarRocks中，湖仓的概念再度被革新，主要体现在存算分离架构、极速湖仓分析和物化视图等三个方面。

首先，以存算分离的架构去构建湖仓，能兼顾成本和性能，同时在资源扩展上也能达到弹性的效果。

其次，StarRocks引入了先进的向量化执行引擎和CBO查询优化器、实时更新的列式存储等，可根据业务不同的分析需求自动进行优化和加速，从而实现极速湖仓分析效果。

再者，在数仓的数据加工过程中，物化视图能有效降低数据加工的门槛，减少对外部数据集成组件的依赖。

孟庆欢重点介绍了存算分离架构的在实际应用过程中的优势。他谈到，存算分离架构，可以将计算资源和存储资源进行解耦。应用场景上，存算分离既能适应私有化场景，也能适应公有云环境，用户在技术架构选择上更加灵活。计算性能上，存算分离引入了缓存机制，性能能达到与存算一体持平。

孟庆欢还提到，存算分离架构能够便利地进行数据资源隔离，不同业务团队可单独使用计算资源，不用担心自己的数据查询分析需求干扰到其他团队。

依托于统一的元数据catalog体系，StarRocks内部、外部数据实现统一管理。当前数据库里的数据和外部的数据分别有哪些、其业务口径是如何定义的、权限是如何分配的等问题的答案一目了然。在这个过程中，通过对湖仓性能加速，其提供的服务性能也将有不同程度的提升，进而满足业务对于秒级、毫秒级分析需求的响应。

具体谈到物化视图的革新时，孟庆欢介绍，物化视图在底层面对业务端是透明加速的，业务人员无需感知物化视图的存即可享受更快的分析体验，这个工作由业务分析师甚至是加工引擎来自动生成和推荐，让业务数据根据原有的数据加工逻辑和模型，自动进行物化视图的加载。

他表示，物化视图中存储的是业务所需要的结果数据，通过结果数据的直接生成，可有效缓解线性计算过程中集群资源及数据量较大时导致的性能慢的问题。应用物化视图，不同业务人员可选择其所关心的维度，从而降低数据存储的冗余，提升业务灵活定义指标的扩展性。

基于StarRocks构建的湖仓分析新范式，有助于业务进行更灵活、更具时效性的数据分析。无论是实时数据还是批量数据，都能导入到StarRocks中，结合湖的能力完成数据分析。同时，利用物化视图，可减少数据模型加工带来的工作量和维护代价，提升业务体感，加速业务查询。

孟庆欢透露，目前，湖仓新范式正在被广泛实践，日常生活中人们常用的微信视频号、携程预订机票酒店等，底层都是依托于StarRocks来实现精准的内容推荐。

伴随AI不断深入各种应用场景，StarRocks在与AI的结合上也有诸多尝试。孟庆欢表示，希望越来越多合作伙伴和用户在StarRocks上实验出更多基于AI的应用，进而提供更有价值的数据驱动力。

镜舟科技

北京镜舟科技有限公司是一家专注开源商业化的中国公司，由 StarRocks 项目核心成员于2022年创立。

基于开源项目 StarRocks ，镜舟打造了符合国家标准并适配国内外生态体系的企业级分析型（OLAP）数据库，在行业适配度、场景成熟度、产品稳定性等方面有着卓越表现。

作为 StarRocks 社区中国最大贡献者，镜舟大力参与社区推广工作，未来也将持续与各头部厂商一起创造世界顶级的开源项目，为社区发展贡献力量。

文：九如/ 数据猿
责编：凝视深空 / 数据猿