转载公众号 | 恒生技术之眼
随着大语言模型时代的到来,大模型本身的建设固然具有重要的意义,但与大模型配套的基础设施建设同样具有重要意义,构建连接大模型和行业应用的“中控”基础设施,对于像金融这样在数据内容、业务适当性、部署模式和数据流向等都受到强监管的垂直细分行业,更加需要一个强大的“中控”。本文结合大语言模型“中控”基础设施的特点,重点介绍两种新型数据库——向量数据库与图数据库的用法。
行业呼唤大模型“中控”
首先,与大模型配套的转接工具链,是大模型“中控”的基本部分之一。这些工具链是将大模型与应用场景连接起来的桥梁,负责处理输入输出、数据转换和模型部署,特别是任务编排和指令流水执行等任务。幸运的是,目前已有很多此类开源组件被证明行之有效,可供选用。这些工具链的建设不仅提高了大模型的使用效率,还为开发人员提供了更加便捷的开发环境。
其次,中控本身也可以提供一些具有共性的能力,如文档的解析、图表的处理、基于时序数据的指标计算等。这些能力以插件的方式存在,构成对大模型能力的重要补充。
此外,与大语言模型配套的基础设施还包括应用侧的资源组织。从金融这样的垂直行业的诉求来看,仅靠大模型本身对于业务场景是很不够的,必须在运行过程中结合大量的应用侧的专业化数据资源和计算资源才能胜任面向应用场景的Al赋能。近年来出现的新型数据库,如向量数据库和图数据库,在应用侧资源组织中可发挥重要的作用。
向量数据库:让大模型更懂你
向量数据库是专门为向量数据存储和检索而设计的数据库。在大模型时代,大量的向量数据需要被处理和查询,例如人脸特征向量、文本嵌入向量等。向量数据库通过优化向量的存储和索引方式,提供高效的向量检索能力,满足大模型的数据需求。
首先,向量数据库与大语言模型都使用了从离散的文本符号空间与连续的欧氏向量空间之间的映射表示技术,因此在技术上二者是相通的,并且可以互相操作。大语言模型能够理解复杂多变的查询访问意图,向量数据库可以高效精准地完成相应的检索和查询功能,以支持模型的推理和分析任务。
其次,向量数据库可以实现仅靠大语言模型难以实现的可控性、安全性和私密性。通过向量数据库的权限管理和数据加密功能,用户可以对数据进行精确的控制,确保只有授权的人员可以访问和操作数据,确保只有通过受控流程进入向量数据库的数据才能够被检出和使用。这对于保持数据的安全性、可控性和私密性至关重要。
另外,向量数据库在部署和运行上都相对独立于大语言模型之外,不受大语言模型训练周期和推理环境是否支持“热”更新的影响,可以实现更好的时效性、可维护性和可解释性。时效性指的是向量数据库的最新变化能够在与大模型的结合中及时得到体现。可维护性意味着向量数据库可以脱离大模型的推理环境独自进行定点的管理和维护工作。可解释性是指向量数据库能够提供对数据和查询结果的解释,使用户能够理解和解释数据背后的意义。
还有,向量数据库对于大模型专用显卡没有强依赖性,这也是它的一大优势。大模型通常需要强大的计算资源来进行训练和推理,而专用显卡是提供高性能计算能力的重要组成部分。然而,向量数据库通过优化存储和索引方式,可以在普通硬件上实现高效的向量处理,从而节约了有限的算力成本,可以将更多资源投入到其他急需的领域。
最后,我们还需要注意一个误区,即将传统关系数据库或知识图谱的文本转化为向量数据存入向量数据库,供大模型使用的做法。这种做法是一种严重的倒退,它削弱了现有解决方案的精确性,并将问题转化为概率化和不确定性的形式。笔者认为,更好的做法是利用自然语言到结构化查询语言(NL2SQL)的技术,直接将自然语言查询转化为数据库查询语句,从而实现精准的数据检索和操作。
总之,向量数据库是大语言模型时代的一种创新技术,它与大模型在技术上是相通的,并且可以互相操作。通过利用向量数据库,我们可以有效弥补大模型在垂直领域私有部署场景下的诸多不足,充分发挥应用侧数据资源的优势,实现大模型与中控的强强联合。
图数据库:整合应用侧资源的联络图
图数据库是承载知识图谱的计算引擎。事物之间的图状连接在各个领域中普遍存在,图数据库是为图结构数据而设计的数据库。作为符号Al硕果仅存的技术体系,知识图谱就建立在图数据库的基础之上。
首先,与在公共领域中有很大不同的是,在金融这样的垂直细分领域中,知识图谱往往不是通过公开的非结构化数据构造出来的,而是由生产线上的数据汇集、转化而成的。这样的数据,大语言模型无法获取(因为公开领域无法获取这样的数据)。此外,复杂的图计算任务,如“股权穿透”等涉及递归计算的任务,也是当前的大语言模型无法胜任的。
其次,图数据库的构成简单直接,操作类型有限且组合灵活规整。它可以利用大语言模型的意图理解能力,实现自然语言指令与图计算任务的对接,从而实现自然语言到知识图谱(NL2KG)的转化。这对于垂直领域的大模型应用来说是一个重要的抓手。通过将大语言模型的意图解析能力与图数据库的计算能力相结合,可以实现在特定领域的任务中的自然语言与图计算任务的无缝对接。
此外,图数据库对于组织企业和行业内部的数据要素资源、应用接口资源、流程角色资源和业务逻辑资源非常重要。我们可以让它以“中控”核心引擎的面貌出现,统一对接大模型,通过工具链将大模型所解析的用户意图与企业和行业资源进行编排,按需集成和拉通。这个部位也是未来产生对焦大语言模型行业标准的核心部位,具有重要的战略价值。因为在垂直领域的场景中,大模型为中心的插件联盟模式并不适用,而以中控为中心的企业和行业Al能力中心模式,却更有条件独领风骚。
综上所述,向量数据库和图数据库是“中控”的核心组成部分,而“中控”则是连接大语言模型与垂直领域应用的枢纽,是支撑“语控万物”的新一代人工智能能力中心。不久前发布的恒生“光子”,就是定位于金融应用对接大语言模型的“中控”部位。目前,恒生“光子”整装待发,正在奔向“中控”前哨站的战场。同时,恒生人也愿意把对向量数据库和图数据库在大模型应用中应该发挥什么作用的独到理解分享给大家,期待与志同道合者共探索、共实践、共创新。
*本文原载于《恒生世界》2023年第4期
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。