基于知识增强大模型的企业级知识库之一：如何构建知识智能架构

最新推荐文章于 2025-03-14 21:18:22 发布

小马不会过河

最新推荐文章于 2025-03-14 21:18:22 发布

阅读量2.1k

点赞数 26

文章标签：架构人工智能学习数据挖掘大数据 kubernetes

本文链接：https://blog.csdn.net/m0_59163425/article/details/145939902

版权

摘要

本文讨论了在企业架构中构建知识智能层，以将领域特定知识集成到AI系统中，以解决组织特定问题。

Key Takeaways

知识智能层的概念：

将领域知识融入AI系统（如大语言模型），以提高其针对特定业务问题的有效性。
核心组件：

包括语义层、专家知识捕获和检索增强生成（RAG），各自对AI模型的准确性和上下文相关性起重要作用。
数据集成：

通过使用ELT/ETL工具和API管理平台，将结构化和非结构化数据统一起来，确保KI层的有效性。
KI应用：

可用于聊天机器人、智能搜索、推荐引擎等，能够自定义或使用配置的SaaS平台。
共享服务集成：

与数据安全、访问管理等组织服务的集成是实施成功的关键。
案例研究：

某跨国银行通过实施语义层和专家知识捕获，提升非财务风险管理的效率和准确性。
实施建议：

建议以商业案例为基础，从小处着手逐步扩展KI生态系统。

https://enterprise-knowledge.com/enterprise-ai-architecture-series-how-to-build-a-knowledge-intelligence-architecture-part-1/

正文

自两年多前 ChatGPT 推出以来，我们观察到我们的客户越来越被 AI 的前景所吸引。他们还认识到，在公共数据集上训练的大型语言模型（LLM）可能无法有效解决其特定于领域的问题。因此，必须将领域知识集成到这些 AI 系统中，以便它们对组织有系统的了解。最近，我的同事 Lulit Tesfaye 描述了三个关键策略，通过专家知识捕获、业务上下文嵌入和使用语义层资产和检索增强生成（RAG）的知识提取，在组织中实现这种知识智能（KI）。将这样的知识智能层整合到企业架构中不再只是一个理论概念，而是 AI 时代的关键必要条件。这是一项实用的增强功能，它改变了组织将知识注入其 AI 系统的方式，以便更好地解释数据、进行有效推理和做出明智的决策。

在客户组织中设计和实施 KI 层时，我们的目标始终是推荐一种与其现有企业架构紧密一致的架构，从而提供一个破坏性最小的起点。

在本文中，我将介绍我们在过去十年中用来设计和实施一些 KI 策略的常见架构模式，例如跨不同组织的自动化知识捕获、语义层和 RAG。我将描述 KI 层的关键组件，通过高级概念框架概述它们与组织数据源和应用程序的关系。在随后的博客中，我将更深入地探讨 3 个主要策略中的每一项，这些策略详细介绍了 KI 如何整合机构知识、业务环境和人类专业知识，以实现 AI 对企业的承诺。

企业 AI 架构：知识智能

语义层

语义层为组织中的聚合数据资产提供标准化的含义和业务上下文，使 AI 模型能够更准确地理解和处理信息，并生成更相关的见解。具体来说，它可以提供更直观和互联的组织数据实体表示，而无需物理移动数据，并且它通过使用元数据、业务词汇表、分类法、本体和知识图谱来实现这一点。

在实现语义层时，我们经常会遇到这样一种常见的误解，即语义层是单个产品，例如图形数据库或数据目录。虽然我们开发语义层的各个组件已经有近十年的时间，但直到最近几年，我们才将它们全部集成到语义层中。您可以在此处详细了解我们为客户实施的典型语义层架构。为了在语义层的特定组件全部集成到企业数据的逻辑抽象层之前实现它们，我们与该领域的大多数顶级供应商合作，并利用我们专有的供应商评估矩阵为我们的客户确定合适的工具，无论是分类本体管理平台（TOMS）、图形数据库还是数据目录。您可以阅读本文，详细了解我们在选择任何知识管理平台（包括语义层工具）时的高级考虑因素。

专家知识捕获

此 KI 组件以编程方式将隐性和显式领域专家知识编码到结构化的信息存储库中，使 AI 系统能够将组织最有价值的资产、隐性知识和人类专业知识纳入其决策过程。虽然隐性知识很难表达、记录和传播，但使用现代 AI 工具，可以很容易地从与领域专家的记录互动（例如会议记录、聊天记录）中挖掘出来。显性知识虽然有记录，但通常不容易被发现。然而，最先进的 LLM 模型和分类法使得使用有意义的元数据标记这些知识变得非常简单。换句话说，在 AI 时代，虽然内容捕获可能轻而易举，但将捕获的内容转化为知识需要一些思考。您可以在此处详细了解我们经常与客户分享的最佳实践，以实现有效的知识库管理。特别是，我们撰写了大量关于使用元数据提高知识库质量的文章，以及分类法在其中发挥的重要作用。有了分类法，一切都归结为教机器学习（ML）模型用于描述内容的领域特定语言，以便它可以准确地对其进行自动分类。请参阅这篇文章，详细了解我们的自动标记方法。

专家知识捕获的另一个方面是让领域专家参与使用上下文信息对数据集进行注释，或为他们提供嵌入式反馈循环，以审查 AI 输出并提供更正和增强。虽然注释和反馈功能可以包含在供应商平台中，例如数据管理平台中的数据科学工作台或分类管理系统中的分类概念审批工作流程，但我们也实施了自定义工作流程来为客户捕获这些领域知识。例如，您可以在此处阅读有关我们的人机协同分类法开发流程的更多信息，或在此处阅读分类法标签申请流程的 SME 验证。

检索增强RAG

检索增强（RAG）框架允许 LLM 访问最新的组织知识库，而不是仅仅依赖 LLM 的预训练知识来提供更准确和上下文相关的输出。企业 RAG 应用程序甚至可能需要根据知识片段之间的特定关系进行推理，以收集与回答谁/什么/何时/如何/何地问题相关的信息，而不是仅依赖具有完整知识库项目的语义相似性。因此，在通过 RAG 为客户解决 KI 用例时，我们通常会利用两种或多种类型的信息检索系统。

在最基本的形式中，可以使用 LLM、嵌入模型和向量数据库开发 RAG 应用程序。您可以在此处阅读有关我们如何实施此架构以支持跨国开发银行的语义搜索的更多信息。然而，在现实中，RAG 实施依赖于企业中的其他信息检索系统（如搜索引擎或数据仓库）以及语义层资产（如知识图谱）。此外，RAG 应用程序需要在可用知识库和 LLM 之间进行复杂的数据编排;LangChain 和 LlamaIndex 等流行的框架可以通过为常见的 RAG 步骤（如索引、检索和工作流）提供抽象来大大简化这种编排。最后，要将 RAG 应用程序的任何 POC 实现投入生产，我们需要利用一些数据集成和共享服务，例如下面描述的监控、安全性。

数据集成

与任何数据集成、聚合和转换层一样，KI 层依赖于各种工具来提取、连接、转换和统一结构化和非结构化数据源。这些工具包括 ELT（提取、加载和转换）和 ETL（提取、转换和加载）工具（如 Apache Airflow）、API 管理平台（如 MuleSoft）和数据虚拟化平台（如 Tibco Data Virtualization）。通常，这些集成和转换模式在组织内已经建立起来;因此，我们经常建议我们的客户尽可能重用经过验证的设计模式。此外，我们建议客户在将数据发送到 KI 层之前利用已建立的数据清理技术，以进一步丰富和标准化。

KI应用

虽然聊天机器人仍然是 KI 最常见的应用，但我们已经利用 KI 为我们的客户提供智能搜索、推荐引擎、代理 AI 工作流程和商业智能应用程序。根据我们的经验，KI 应用程序的范围从完全定制的应用程序（如 AI 代理）到可配置的软件即服务（SaaS）平台（如 AI 搜索引擎）。

共享服务

包括数据安全管理、用户和系统访问管理、日志记录、监控和组织内的其他集中式 IT 功能在内的服务需要根据既定的组织协议与 KI 层集成。

个案研究

虽然我们在过去十年中一直在客户组织中实施单个 KI 组件，但直到最近，我们才开始实施和集成多个 KI 组件，使组织能够从其 AI 工作中获取最大价值。例如，在过去两年中，我们在一家跨国银行建立了一个卓越数据中心，通过实施和集成两个不同的 KI 组件（语义层和专家知识捕获和转移）来实现有效的非财务风险管理。使用语义层，我们将业务上下文注入到他们的结构化数据集中，方法是使用标准化的分类结构来丰富它，使用领域本体将其置于上下文中，并通过知识图谱将其连接起来。因此，当实例化并部署到生产环境时，该图成为权威的事实来源，并为高级分析和 AI 功能提供了坚实的基础，以提高端到端风险管理流程的效率和准确性。我们还通过将领域知识和业务上下文编程编码到我们为该计划开发的分类法和本体中，实现了 KI 的专家知识捕获组件。例如，我们通过使用 ML 管道挖掘自由文本风险描述来创建新的风险分类法，但通过在管道中嵌入人工反馈，显著缩短了整体开发时间。具体来说，我们为领域专家提供了嵌入式工具和流程，以审查模型输出并提供更正和其他注释，这些注释反过来又被用来优化 ML 模型并以迭代方式创建最终的分类法。最终，KI 的两个组成部分使公司为加强风险管理奠定了坚实的基础;它为在语义层上运行的消费级 AI 功能提供支持，通过智能搜索、链接数据视图和查询简化了对关键见解的访问，从而改善了监管报告，并在公司培养了更加数据驱动的风险管理文化。

结语

虽然有许多方法可以设计和实现上述核心 KI 组件，但有一些最佳实践可以确保解决方案的质量和可扩展性。本系列中即将发布的博客将深入探讨这些组件中的每一个，列举实现每个组件的方法，从技术角度讨论如何实现 KI，并通过实际案例研究详细介绍每个组件如何支持企业 AI 的开发。与任何技术实现一样，我们建议将任何 KI 实现工作建立在业务案例的基础上，从小处着手，然后迭代，从几个源系统开始，为企业 KI 层奠定坚实的基础。建立初始 KI 层后，可以更轻松地扩展 KI 生态系统，同时使基础 AI 模型能够生成有意义的内容、做出智能预测、发现隐藏的见解并推动有价值的业务成果。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述