从蚂蚁集团独立一年后,分布式数据库的标杆OceanBase正在全力拥抱AI。
不久前,OceanBase CEO(首席执行官)杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造“Data×AI”核心能力,建设AI时代的数据底座。
为此,OceanBase启动人才和组织体系升级,任命CTO杨传辉(日照)担任AI战略一号位,并成立AI平台与应用部、AI引擎组等新部门。通过组织和人才的全方位保障,实现从一体化存储到一体化计算的全方位布局,推进“Data × AI”平台的搭建,聚焦打造RAG、AI平台、知识库等能力。
公开信息显示,杨传辉是OceanBase数据库的创始成员之一。2010年加入OceanBase团队,主导了历次架构设计和技术研发,从无到有实现了OceanBase在蚂蚁集团的全面落地。同时,还主导了两次OceanBase TPC-C测试,并打破世界纪录,见证了OceanBase的崛起。
在5月17日的第三届开发者大会上,OceanBase发布面向AI的应用产品PowerRAG,该产品提供开箱即用的RAG应用开发能力,是其面向AI时代的探索之一。杨传辉也首次公开阐释了OceanBase的Data×AI战略,他表示,OceanBase正致力于构建Data×AI能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进。
本期《涛滔不绝》,CSDN创始人&董事长蒋涛与OceanBase CTO、 AI战略一号位杨传辉就数据库迈向AI战略的必要性谈起,从数据库与AI的技术融合实践到数据库与AI的未来洞见,为我们揭开了数据库拥抱AI的深层逻辑。
AI浪潮下,数据库如何承接AI?
伴随着DeepSeek的崛起,今天,我们已经从大数据时代迈入大AI时代。同时,这也意味着数据在应用层的拓展和数据量将大幅增加,对数据处理的多模态和扩展性能力要求更高。
蒋涛:从你的角度来看,AI大模型对数据基础设施有什么新的要求和变化?
杨传辉:一方面,AI时代的数据从结构化交易记录延伸至文本、图像、向量等多模态形态,例如金融风控需分析用户行为向量,医疗场景则需要处理影像数据特征等多模态数据。此外,据IDC预测,2025年全球数据量将达到175ZB,其中,80%以上的为非结构化数据,这也就意味着非结构化数据的存储和处理将成为核心挑战,传统单一的存储架构难以承载如此庞大的数据需求。
另一方面,大模型在通用领域的“幻觉”问题,可能导致数据分析和决策失误,尤其在金融、医疗等关键领域,可能演变为“准确率危机”,影响业务稳定性和安全性。核心问题就在于企业如何处理数据,如何处理好数据与AI的关系。
从本质上来看,几乎所有数据企业都是AI企业,数据与AI分不开。
也就是说,AI时代,企业需深刻理解数据与AI的共生关系,数据与AI本身密不可分。数据库的价值显然已经从单一工具转变为AI赋能的基础设施,成为连接数据与智能的桥梁。而这也正是OceanBase AI战略的核心所在。
OceanBase 的 Data×AI:重新定义数据库边界
在这样的背景下,数据库的角色已不再局限于数据存储,而是演进为支撑AI应用的底座。其不仅要高效处理多模态数据,还需具备智能化数据分析能力,以应对复杂场景下的决策需求。
蒋涛:OceanBase 提出的Data×AI如何理解?
杨传辉:首先,Data×AI并不是简单的技术叠加,更多是数据库的延展。而OceanBase的发展路径恰好与之相契合。OceanBase的产品从早期的OLTP数据库,逐步扩展到OLAP分析处理,再到向量、搜索、JSON和多模态处理,形成了一体化的数据库架构,完美契合Data×AI的需求。
尽管Data xAI处于起步阶段,但OceanBase的优势在于其是交易出身,对于分析、多模态处理有着天然的优势。不同研发小组专注于各自模块,但最终集成于分布式引擎之上,确保一体化方案的协同高效,避免了传统数据库的割裂问题,实现数据处理的连贯性与高效性。
蒋涛:和外挂式数据库厂商的主要差距表现在哪里?比如性能方面?
杨传辉:我觉得主要差别体现在两方面。其一在于体验上的本质差异。混合搜索功能需同时查询交易数据和多模态向量,若分属多系统,技术栈分散,难以统一,导致检索效果不佳。其二,分布式数据库底座能全面处理结构化和非结构化数据,确保高效准确,这是外挂式难以比拟的。
蒋涛:混合检索对于数据库厂商而言,是一种新的能力吗?
杨传辉:我认为是的。随着AI和多模态需求的兴起,数据库厂商纷纷转向混合负载和混合检索,这在没有AI和多模态之前是不常见的。可以说,混合检索对于数据库而言是一个比较新的趋势。
蒋涛:OceanBase的向量性能现在是什么样的水平?
杨传辉:依托蚂蚁集团在向量索引技术上的深厚积累,结合OceanBase在数据库领域的优势,尤其在分布式架构、扩展性和稳定性方面,双方的优势能力深度融合,目前已达到开源数据库业内一流水平。从性能维度来看,在同等召回率下,检索性能较开源向量数据库更快;从成本维度来看,针对向量数据量不大的情况,引入BQ量化算法,通过直接量化或简单内存量化,我们节省了95%的内存,对于向量数据量庞大的情况,存储至磁盘后,OceanBase的优势更为显著,确保高效处理的同时,大幅降低成本。
AI重塑数据库:从“被动存储”到“主动赋能”
大模型的崛起,暴露了企业数据应用的深层矛盾:即公网数据训练的模型难以理解行业私有数据,而数据隐私与安全又限制了“数据喂给大模型”的路径。此时,数据库的角色从“数据仓库”升级为“AI桥梁”——它既要存储和管理数据,更要主动处理数据,让大模型“看得懂”企业私有知识。 RAG(检索增强生成)技术则成为突破口之一。
蒋涛:企业如何将私有数据与大模型集合是关键,数据库能做什么?
杨传辉:我们希望从两个维度切入:一是通过RAG(检索增强生成),将企业查询相关数据提取后作为提示(类似数据库中的hint)输入大模型,以生成更精准的结果;二是未来通过微调,针对企业特定场景数据对模型进行优化,使其更贴合实际业务需求。
今天,我们也在开发者大会上发布了RAG工具,未来还将支持微调等工具,持续专注于数据处理能力拓展,覆盖多模态数据场景。
目前,OceanBase一体化数据底座中的向量数据库与混合检索能力已在客户中落地,例如联通软研院用其构建 DBA知识库,in银泰商业通过混合检索实现智能问数功能,这些实践均体现了业界对OceanBase相关能力的认可。
蒋涛:如何用好OceanBase的PowerRAG方案?
杨传辉:传统RAG需要开发者自行搭建数据处理、向量索引、提示词优化等复杂流程,而OceanBase的Power RAG将这些流程封装为标准化服务:用户只需上传文档,即可通过自然语言查询私有知识,底层自动完成文档解析、段落切割、向量检索与大模型交互。这种“低代码甚至无代码”的能力,让AI应用门槛大幅降低——即使是中小企业,也能借助数据库工具快速构建专属智能服务,如客服知识库、智能报表生成等。
当然,这其中更深层的变革在于数据处理逻辑的重构。数据库开始融合AI算法,通过向量索引优化检索效率,利用大模型生成SQL语句或优化查询计划。例如,OceanBase的ODC工具,已能通过对话式交互辅助开发者编写SQL,准确率显著提升。这进一步验证了“数据库+AI”将重新定义开发者的工作方式,让数据处理从“技术活儿”变为“自然语言对话”。
蒋涛:MCP会被作为数据衔接的工具吗?
杨传辉:从AI生态视角出发,我们目前已实现对MCP协议的支持,满足大模型调用数据库及其他工具的需求,且我们的管控工具也已完成MCP协议适配。
力争成为新一代MySQL
数据库的竞争,本质是生态的竞争。在传统数据库时代,MySQL、PostgreSQL等凭借开源生态占据统治地位。而在AI时代,新的生态格局正在形成。
蒋涛:OceanBase 对出海怎么看?如何构建数据库生态?
杨传辉:在海外拓展业务期间,我们接触了众多客户,他们普遍对OceanBase的产品赞不绝口,尤其认可其领先的扩展性、性价比以及独特的一体化能力,这些优势在传统数据库产品中实属罕见。但也面临一些挑战:比如海外部分客户的程序员群体技术迁移能力较弱,难以适应新的技术框架,且对额外的开发任务接受度较低,这本质上是生态建设层面的难题。
不过,AI时代的到来为OceanBase创造了破局机遇。随着多模态数据处理需求的爆发,市场急需一体化数据底座。当前开源生态中,PostgreSQL 通过插件形式积极扩展对事务处理(TP)、分析处理(AP)及向量数据的支持,生态发展迅猛;而 MySQL 因被收购,在AI时代的生态迭代近乎停滞。OceanBase作为完全兼容MySQL的开源产品,不仅能无缝承接MySQL用户,更凭借一体化架构在性能与成本上实现超越 —— 既能满足传统交易场景需求,又能原生支持向量检索、混合负载等AI能力,成为MySQL生态向AI时代转型的方案之一。
同时,OceanBase的另一核心优势源于蚂蚁集团的深度赋能。顶级应用场景是驱动数据库创新的核心动力。正如移动互联网时代的双11成就了OceanBase的分布式技术领先地位,AI时代的前沿应用正推动OceanBase的智能化升级。蚂蚁集团在金融、风控、营销、医疗等全场景的AI实践,为OceanBase提供了独一无二的“练兵场”—— 从内部业务中提炼的向量检索、智能风控等能力,经实战打磨成熟后再输出给外部企业,使 OceanBase 的AI功能在落地效率与成熟度上能够超出行业平均水平。这种“内部孵化 - 外部验证” 的模式,正是OceanBase技术快速迭代的核心密码。
生态构建的另一维度是全球化。东南亚、欧洲、拉美等地区正成为新战场,AI时代的混合负载需求让中国数据库的技术优势得以凸显,正如新能源车凭借技术迭代打破传统车企优势,中国数据库也有望借助AI浪潮实现“换道超车”。
蒋涛:对开发者有哪些建议?
杨传辉:AI时代的到来,对所有开发者而言既是机遇也是挑战。“学AI用AI,学OB用OB”是应对这一变革的核心路径。OceanBase作为深耕数据库领域15年的产品,未来仍将持续投入迭代,不断进化。如今,OceanBase在分布式技术领域已处于世界领先地位,但要成为数据库生态中最受欢迎的产品,仍需长期耕耘。
但生态的繁荣无法仅凭一家企业完成,需要携手所有用户与开发者共同成长。在此过程中,OceanBase将始终保持专注——依托蚂蚁集团的强大支持,持续加大技术投入,优化产品能力。我们期待与开发者并肩,在AI时代共同构建更具生命力的技术生态。对于开发者而言,拥抱AI浪潮、掌握OceanBase技术,正是把握未来机遇的关键所在。
蒋涛:OceanBase在未来的5~10年有什么技术蓝图规划?
杨传辉:数据库是需要沉淀的基础设施,打造世界级数据底座需以20-30年为周期。未来 5-10年,OceanBase将聚焦两大战略方向:
其一,深化一体化数据底座建设,成为新一代MySQL。
当前OceanBase用户已覆盖全球2000多家企业,但要成为全球流行的技术栈,需从 “万级用户” 迈向 “百万级、千万级”。AI时代的核心目标是让OceanBase成为企业AI应用的标配底座,支撑从交易、分析到向量检索的全场景需求。这不仅需要持续优化分布式架构的性能与稳定性,更要通过开源生态建设降低使用门槛,例如兼容MySQL生态以吸引传统开发者转型。
其二,破解“Data ×AI” 深度融合的技术命题。
数据与AI的结合面临算法优化、成本控制、模型适配等多重挑战。OceanBase的技术团队正重点突破两大方向:
-
降低AI推理成本:通过向量索引优化、内存量化等技术,提升数据处理效率的同时降低资源消耗。
-
动态适配大模型进化:建立与大模型厂商的协同机制,快速响应模型迭代(如上下文长度扩展、多模态输入支持),避免因模型升级导致的技术滞后。
未来十年,数据库的终极形态可能是“Data x AI”的深度融合体:它既是数据存储与处理的中心,也是AI应用的运行平台,甚至能通过自主学习优化数据管理策略。
做数据底座需要20年、30年的长期投入,我们正站在新的起点上。
结语
当 DeepSeek 等大模型重新定义 “智能上限” 时,数据库正在定义 “智能的边界”—— 它决定了企业能在多大程度上利用数据释放 AI 价值。OceanBase的探索表明,数据库的AI觉醒不是技术叠加,而是从底层架构到场景落地的全面革新。
正如蒋涛所说:中国拥有全球领先的应用场景和技术人才储备,这为国产数据库的崛起提供了沃土。我们有理由相信AI时代的 “Data x AI” 融合趋势为国产数据库提供新的机遇,OceanBase的一体化数据底座探索可以说为数据库厂商做了标杆,同时期待更多开发者加入生态,共同把握AI时代的 “大航海” 机遇,开启软件产业大变革。