将数据库性能提升 100 倍？大数据时代中，一位数据库老兵的创新之路

最新推荐文章于 2024-09-13 21:40:38 发布

2401_84187537

最新推荐文章于 2024-09-13 21:40:38 发布

阅读量592

点赞数 20

分类专栏： 2024年程序员学习文章标签：数据库大数据

本文链接：https://blog.csdn.net/2401_84187537/article/details/137676195

版权

2024年程序员学习专栏收录该内容

45 篇文章 0 订阅

订阅专栏

在无数数据库行业的老将新兵中，我们注意到一批力图解决大数据语境下，数据库使用和运维难题的“引路人”。今天，InfoQ 的专访对象 — 姚延栋，正是这批大数据“引路人”中的一个。

作为 Greenplum 的第三号员工，在过去十年间，姚延栋曾带领团队将 Greenplum 打造成为世界排名第三的分析型数据库，创下由华人主导的数据库产品最好排名。而在数据库领域从业数十年后，他又选择开启自己的创业之旅，与两位合伙人共同创办了一家名为四维纵横的数据库公司。那么，他为什么在这个时间点选择创业？当传统行业的数字化转型成为大势所趋，数据库领域又发生了什么新故事？我们带着这些问题，同四维纵横创始人姚延栋一起聊聊数据库的过去与未来，挑战与机遇。

行业中存在一种思维惯性

===========

“创业是为了打破行业的惯性。”

“如果把数据库领域比作一个大森林，那么我们就是对地形非常熟悉的原住民。当有人想穿过大森林，却不知该走哪条路的时候，我们就充当“引路人”来帮助他们穿过森林。倘若没有我们，那他们可能会按照自己的惯性去走。”

姚延栋在 Greenplum 效力的十年期间，最初主要从外围模块入手打造产品，后来逐步向核心迈进，打磨内核模块，直到团队驾驭整个数据库内核，他坦言这与农村包围城市的过程十分类似。在此期间，他发现行业中存在一种惯性思维，而创业的目的就是为了打破这种惯性。

那么，这个惯性到底指的是什么？

以时序场景为例，现在业内普遍流行使用专用的时序数据库，典型的代表产品有 InfluxDB、OpenTSDB 等，而与此同时，几乎所有场景都需要关系型数据库。这样一来，大家就不得不引入多个数据库产品，使得技术栈以及监控运维变得十分复杂。

虽然专用时序数据库在一定程度上满足了业务对于时序处理的需求，但也存在诸多问题，其中性能低、扩展性差的问题尤为显著。过去时序数据库大多是为数据中心的服务器监控、埋点数据处理等简单场景设计的，所以，其无法为物联网等场景下的大量数据源和大量指标提供支持。除此之外，开发效率低、需要 MPP 数据库或者大数据产品配合以及数据孤岛化等方面，都是摆在从业者面前的难题。

应运而生的超融合时序数据库

=============

“我一直把数据库的技术演进和生物界的进化类比去看。”

从上世纪 60 年代诞生起，数据库技术就一直在不断地演进、迭代，其背后主要是两股力量在推动：一股力量是性能问题，另一股力量是效率问题。

上世纪七八十年代，关系型数据库开始独步天下，从业者主要是基于关系型数据库来高效存储和处理应用开发中用到的数据；到了 2000 年左右，数据规模大幅增长，而大数据处理技术尚未展露雏形，整个社会对于浩瀚信息的处理仍处于比较迷茫的阶段，以至于技术的迭代速度赶不上数据增长的速度。自此，大数据处理的性能问题开始显现，数据库领域随之出现了时序数据库、KV 数据库、文档数据库等专用数据库，以期解决性能从 0 到 1 的问题。但由于应用要与多个数据库沟通，从多个数据库读取数据到应用程序内存中再进行关联、聚集以及合并等计算，很多数据处理逻辑被迫只能放在应用中，开发和运维效率就不可避免地大打折扣。

如此一来，为了解决效率问题，行业中又出现了 Presto 等类型的产品，即在专用的数据库上封装一个查询引擎，试图把数据处理逻辑从应用处理逻辑中剥离出来。这种方式虽然在一定程度上解决了开发效率问题，但性能仍是短板，且并未从根本上解决技术栈复杂的问题。

我们可以看到，在进化了近 50 年后，现有的数据库技术已经不能满足从业者的需求 — 他们需要更加简单易用、省心省力的数据库。在这样的背景下，为了能给用户提供简单易用的接口，真正实现数据平民化，姚延栋和他的团队将关系数据库、时序数据库和分析数据库融合在同一个数据库产品中，打造了全球唯一一款 PB 级超融合时序数据库 –MatrixDB。

超融合时序数据库解决了什么问题？

================

目前，超融合时序数据库主要应用在两大场景：第一，时序、时空场景，通常是物联网、工业互联网、车联网和智慧城市等领域；第二，实时数据分析场景。

谈到时序、时空场景，姚延栋分享了一个海量设备、大量存储的典型物联网场景。“以一家做光纤和 5G 通讯设备的国际制造商为例，这家制造商大概有 1000 万设备，每台设备每次都会采集 300 个指标数据，每次共计需要采集 30 亿指标。”基于这种情况下，MatrixDB 实现了超大规模数据的实时加载特性，在保证低延迟和高并发加载的同时，也减轻了系统资源消耗，充分将快速采集、高效存储的特性显示了出来，使得海量数据的存储问题、秒级采集的频率要求都能得到完美的解决。

在实时分析的特性方面，姚延栋又给出了另一个案例：在一个实时数据分析的业务中，MatrixDB 可以实现对 IT 运营域和 OT 生产域的数据收集，通过 ETL/CDC 和物联网协议插入数据以后，便能将两张网的数据整合在一起，使得公司的全部数据一目了然地展现。当企业再基于这些数据进行分析时，就能得到更加精准且全面的结论。

我们还注意到了 MatrixDB 的另一个重要特性——**模块化和可插拔。**专用时序数据库通常包含存储器和简单的执行器，没有优化器和并发控制等关系数据库经典组件。从本质上来看，它是把存储器“做成”了数据库，以此来解决一个特定的问题。**而超融合时序数据库则是把存储器“做进”数据库，通过把各个核心功能做到模块化、可插拔，在一个关系数据库内部同时实现多种存储引擎，以及跨存储表关联和 ACID。**比如有 200 张表，其中 190 张是关系型数据，这部分可以使用关系引擎存储；剩余 10 张是时序数据，就可以使用时序引擎存储，且它们可以相互关联。

与传统的关系数据库 + 专用时序数据库相结合的架构相比，通过支持多种存储引擎，超融合时序数据库可以让性能快 10-100 倍，同时大幅降低成本，提升开发运维效率。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。