摘要
本文探讨如何利用自然语言处理、分类方法和大模型技术从非结构化数据中提取知识,强调人类专业知识的重要性。
Key Takeaways
-
自然语言处理(NLP)是将非结构化数据(占组织数据的80-90%)转化为机器可读格式的关键技术。
-
主要内容分类方法包括转移学习、基于分类管理系统的分类、LLM支持的分类、AI增强的主题分类生成和知识图谱构建。
-
转移学习通过预训练模型提升分类效率,适用于知识图谱实体提取。
-
LLM支持的分类利用少量示例进行分类,但需优化提示以确保准确性。
-
LLM增强的知识图谱构建从非结构化内容中提取实体和关系,涉及多个步骤如核心指代解析和关系分类。
-
本文强调人类专业知识在知识提取中的重要性,并预告未来讨论如何将专业知识编码到企业AI系统中。
Sources:
https://enterprise-knowledge.com/enterprise-ai-architecture-series-how-to-extract-knowledge-from-unstructured-content-part-2/
Enterprise AI Architecture Series: How to Extract Knowledge from Unstructured Content (Part 2)
正文
我们的首席执行官 Zach Wahl 最近在他的 2025 年年度 KM 趋势博客中指出,知识管理 (KM) 和人工智能 (AI) 实际上是同一枚硬币的两面,并在他的开创性博客中进一步详细介绍了这一想法,介绍了知识智能 (KI) 一词。特别是,KM 可以在构建非结构化内容方面发挥重要作用,使其更适合企业 AI 使用。使用分类法、本体论和知识图谱将知识注入非结构化数据将是本博客的重点,该博客是知识智能架构系列的第 2 部分。我还将介绍我们从非结构化内容中挖掘知识以开发分类法和知识图谱的典型方法和经验。作为复习,您可以回顾本系列的第 1 部分,其中我介绍了实现任何 KI 架构所需的高级技术组件。
NLP在构建非结构化内容中的作用
自然语言处理 (NLP) 是一种机器学习技术,它使计算机能够解释和理解人类语言。根据大多数行业估计,组织 80-90% 的数据被认为是非结构化的,其中大部分来自电子邮件、聊天消息、文档、演示文稿、视频和社交媒体帖子。由于缺乏预定义的结构,从此类非结构化内容中提取有意义的见解可能很困难。这就是 NLP 技术非常有用的地方。NLP 通过此类数据中常见的方言、隐喻、句子结构的变化、语法不规则和使用异常的差异进行工作,并有效地构建它。用于分析非结构化内容并使其机器可读的常见 NLP 任务是 内容分类 。此过程通过识别指示文本主题的关键字,将文本分类为预定义的类。
在过去的十年中,我们在典型的知识和数据管理项目中采用了大量 NLP 技术,专注于非结构化内容分类。随着大型语言模型 (LLM) 的出现,传统的 NLP 任务现在可以以更高的精度和召回率执行,同时需要的开发工作量大大减少。以下部分介绍了一系列全面(但并非详尽)的 NLP 策略,这些策略结合了传统的 ML 和尖端 LLM 以及用于内容理解和分类的供应商平台中固有的模式识别功能。具体来说,它描述了每种方法的底层架构,说明了使用语义数据资产为非结构化内容添加上下文所涉及的步骤,以及一些相关的案例研究。
1. 用于内容分类的迁移学习
迁移学习是一种方法,其中将在大型数据集上训练的深度学习模型应用于使用不同数据集的类似任务。从已经从大量数据中学习语言模式和结构的预训练模型开始,无需大量标记数据集并缩短训练时间。自 2018 年发布 BERT (Bidirectional Encoder Representations from Transformers) 语言模型以来,我们广泛使用迁移学习来使用预定义的分类方案对非结构化内容进行分析和分类。事实上,在实例化知识图谱时,这通常是我们首选的实体提取方法,因为它支持企业可扩展且可维护的解决方案。
企业 AI 架构:用于内容分类的迁移学习
如上图所示,企业中的非结构化数据可能来自传统系统之外的许多不同的系统,例如内容管理系统和网站。此类来源可以包括电子邮件、即时消息系统和社交媒体平台等通信渠道,以及用于在组织内集中存储、组织、管理和分发图像、视频和音频文件等媒体文件的数字资产管理平台。由于机器学习只能处理文本数据,因此根据内容类型,实施迁移学习的第一步是采用适当的文本提取和转换算法来使数据适合使用。接下来,域 SME 标记一小块干净数据,以使用预定义的分类方案(也由域 SME 提供)微调选定的预训练 AI 模型。训练后,微调后的模型将部署到生产环境中,并可用于内容分类。在此阶段,组织可以通过基于迁移学习的可作内容分类管道运行其内容,并将其存储在集中式元数据存储库中,例如数据目录,甚至是简单的对象存储,反过来,这些元数据存储库可用于支持从数据发现到数据分析的多个企业用例。
迁移学习是我们在典型的知识图谱加速器参与中用于从非结构化内容中提取实体的流行技术之一。这是我们评估Data Fabric解决方案供应商的标准之一,尤其是对于跨国制药公司而言。这是因为迁移学习可以很容易地随着领域SME的输入(关于数据标记和分类方案定义)而增长,以根据组织需求定制机器预测,并在没有大量机器学习培训的情况下维持分类工作。但是,这并不意味着不需要机器学习 (ML) 专业知识。对于缺乏构建和维护自定义 ML 管道的内部技能的组织,以下内容分类方法可能很有用。
2. 分类管理器驱动的内容分类
大多数现代分类本体管理系统 (TOMS) 都包含一个分类引擎,该引擎支持基于定义的分类进行自动文本分类。根据我们的经验,可以访问 TOMS 但没有专门的 AI 团队来开发和维护自定义 ML 模型的组织更喜欢使用 TOMS 的内置分类功能来分类和构建其非结构化内容。
企业 AI 架构:Taxonomy Manager 驱动的内容分类
虽然 TOMS 供应商在使用分类法对非结构化内容进行分类的方式上存在差异(例如,仅利用文本元数据或使用分类法概念之间的结构关系对内容进行分类),如上图所示,将 TOMS 与管理非结构化内容和利用 TOMS 生成的元数据的企业系统集成的高级体系结构通常独立于特定的 TOMS 平台。在此体系结构中,当信息架构师认为分类法已准备就绪时,他们会将相应的分类规则发布到特定于 TOMS 的分类引擎。通常,组织为分类发布配置自定义更改侦听器。这有助于他们决定何时使用已发布的规则标记其非结构化内容,并将这些标签存储在中央元数据存储库中,以支持企业中的许多用例。但是,有时,TOMS 平台会为特定 CMS(如 SharePoint 或 WordPress)提供本机连接器,以便在发布新的分类版本时管理其增量内容的自动标记。
我们与许多领先的 TOMS 供应商合作开展典型的分类加速器项目,您可以在我们的知识库中详细了解此方法在支持内容发现方面的应用,从全球投资公司的知识门户到在金融解决方案提供商组织中使用有效的内容组合创建更加个性化的客户体验。
3. LLM 支持的内容分类
近年来,随着 LLM 的兴起,我们一直在使用各种提示技术,以便在我们的项目中使用 LLM 对文本进行有效分类。根据我们的实验,我们发现,即使标记数据有限,语言模型也要为语言模型提供一小组标记示例以及提示来指导非结构化内容的分类,从而在文本分类任务中实现高准确性。然而,这并没有削弱设计有效提示的必要性,以提高上下文学习方法的准确性,而上下文学习方法是任何提示工程技术的核心。
企业 AI 架构:LLM 支持的内容分类
如上图所示,在内容分类的 Few-shot 学习方法中,除了我们需要 LLM 分类的原始文本外,还包括分类方案和来自领域 SME 的标记示例。但是,由于大多数最先进的 (SOTA) LLM 的上下文窗口的限制,输入文本通常需要在预处理和清理后进行分块,以遵守提示的长度限制(如上图所示)。然而,图像中不包括我们经常采用的 LLM 优化技术,用于大规模提高分类任务的性能。人们普遍认为,任何需要与 LLM 交互的自然语言处理 (NLP) 任务(通常托管在远程服务器上)默认情况下都不会具有性能。因此,在我们的典型项目中,我们采用优化技术,例如缓存先前的响应,将多个请求批处理到一个提示中,并在基本提示工程之外并行对多个块进行分类,以便为企业实施可扩展的内容分类解决方案。
去年,当我们与欧洲的一家公共安全机构完成知识图谱加速器项目时,我们使用了 LLM 支持的内容分类方法,而我们无法使用 TOMS 驱动的内容分类方法来实例化知识图谱。这是因为敏感数据从托管解决方案的 Azure 北欧区域传输到托管 TOMS 平台的基础结构(在允许的区域之外)存在相关风险。在这种情况下,LLM 支持的内容分类(例如少量提示方法)使我们能够通过从非结构化内容中提取实体并实例化知识图谱来开发解决方案,从而促进该机构的建筑工地规划人员做出基于上下文的数据驱动型决策。
最近,当我们与一家非营利性慈善组织合作时,我们使用了 LLM 支持的内容分类方法,以分析他们的医疗保健产品调查数据,以了解其在特定市场和人群中的采用情况,并最终为未来的产品开发提供信息。我们制定了一份全面的产品采用因素列表,这些因素不容易识别和包含在产品研究中。然后,我们利用产品采用因素和 Azure OpenAI 模型的受控词汇对自由格式的调查响应进行分类,并了解这些因素相互影响的不同方式,从而有助于更细致地了解用户如何做出与产品相关的决策。这种增强的模式检测方法能够全面了解影响因素,从而解决组织未来产品开发工作中的知识差距。
4. AI增强主题分类法生成
到目前为止,我们一直专注于使用Taxonion来构建非结构化内容。我们现在将转向使用机器学习来分析非结构化内容,提出分类法,并使用 AI 创建知识图谱。我们将讨论近年来 LLM 如何简化实体和关系提取,使更多组织能够将知识图谱整合到其数据管理中。
虽然我们通常不建议客户在没有人机协同流程的情况下使用 LLM 来创建生产级领域分类法,但我们在过去的项目中使用了 LLM 来增强和支持我们的分类学专家在语义分组的非结构化内容中命名潜在主题,从而创建主题分类法的非常粗略的草稿版本。
根据下图,我们的方法以三个关键任务为中心:
-
数据集的无监督聚类,
-
发现每个集群中的潜在主题,
-
基于这些主题创建主题分类,以及
-
让分类学家和领域专家参与验证和增强分类法。
由于所有 SOTA 嵌入模型都固有的标记限制,一旦从非结构化内容中提取原始文本、预处理和清理,就必须对其进行分块,然后才能由嵌入生成服务创建封装语义信息(称为嵌入)的数字表示并将其存储在向量数据库中。嵌入生成服务可以选择包括量化技术,以满足管理大型数据集嵌入的高内存要求。嵌入生成后,分类生成管道侧重于语义相似性计算。虽然底层内容或语料库之间的语义相似性可以很容易地计算为嵌入的内积,但出于可扩展性的原因,我们通常会将嵌入从其原始高维空间投影到较低维度,同时保留其局部和全局数据结构。此时,内容聚类服务将能够使用嵌入作为聚类算法的输入特征,从而能够根据嵌入距离识别相关类别。自动生成分类概念过程的下一步是使用 LLM 作为潜在主题识别服务的一部分来推断每个集群的潜在主题。最后,分类法草案可供领域专家验证和更新,然后才能用于支持从数据发现到分析的企业用例。
企业 AI 架构:AI 增强主题分类生成
我们通过将原始风险数据集从 20,000 个自由文本风险描述折叠成一个具有 1100 个标准化风险分类概念的简化流程,使用这种方法专门为一家跨国银行的生产中的非财务风险管理生成分类,从而实现了消费者级语义功能。
5. AI 增强知识图谱构建
用于从非结构化内容中提取实体和关系的 AI 辅助可以利用从迁移学习到 LLM 提示的各种方法。根据我们的经验,将 schema 作为后一种技术的一部分可以大大增强实体和关系标签的一致性。在将提取的实体和关系加载到知识图谱中之前,可以使用 LLM 以及域 SME 定义的启发式方法来进一步消除这些实体的歧义。
企业 AI 架构:AI 增强知识图谱构建
我们利用 AI 构建知识图谱的典型方法如上图所示。它从非结构化内容处理技术开始,以生成可从中提取实体的原始文本。共指解析,即对同一现实世界实体的所有提及都替换为名词短语,通常构成实体提取过程的第一步。在下一步中,我们是否可以采用分类驱动内容分类部分中描述的一些技术进行实体提取,这取决于底层本体(知识模型或数据架构)以及此数据模型中的多少个类可以使用相应的分类进行实例化。即使对于非分类类,我们也可以使用迁移学习和提示工程来加速从原始文本中提取本体类的实例。接下来,我们可以选择通过实体解析管道处理提取的实体,以识别内容源内和内容源之间同一真实世界实体的实例并将其连接到一个提炼的表示中。在实体提取过程的最后一步(如果适用),我们可以通过将提取的实体链接到公共或私有知识库(例如维基数据)中的相应条目来进一步消除提取的实体的歧义。实体可用后,就可以按照本体关联这些实体,以完成知识图谱实例化过程。与实体提取类似,从传统的监督和无监督学习技术到更现代的迁移学习和提示工程技术,一系列机器学习技术可用于关系分类。例如,在开发连接学习内容和产品数据的知识图谱驱动的推荐引擎时,我们将无监督学习方法(例如相似性指数)与监督学习方法(例如链接分类器)在预测实体之间关系方面的效果与监督学习方法(例如链接分类器)的效果进行了比较。
结语
虽然使用语义资产构建非结构化内容一直是本博客的重点,但很明显,只有整合组织最有价值的知识资产:人类专业知识和所有类型的数据,它才能有效。虽然我将在本 KI 架构博客系列的后面部分深入探讨如何将这些专业知识编码到企业 AI 系统中的技术细节,但从上面的讨论中可以明显看出,如果没有领域专业知识,就不可能从组织的大量非结构化内容中挖掘知识。正如我们的案例研究所表明的那样,这些用于知识提取、主题建模和文本分类的互补技术与领域专业知识相结合,可以帮助组织实现真正的知识提取。在本系列博客的下一部分中,我将探讨使用语义层为企业中的结构化数据提供标准化含义和上下文的技术方法。同时,如果我们描述我们如何通过元数据为客户的非结构化内容带来结构的案例研究与您产生共鸣,请联系我们以帮助您开始使用 KI。
企业知识图谱介绍
企业知识图谱一直在上升。我们将它们视为一个非常有价值的工具,用于关联您的结构化和非结构化信息并发现有关您组织的事实。然而,知识图谱一直并且仍然没有得到充分利用。组织仍在努力寻找,更重要的是,发现他们有价值的内容。更进一步,知识图谱是实现智能语义人工智能应用程序 (AI) 的先决条件,它可以帮助您从内容、数据和组织知识中发现事实,否则这些事实会被忽视。智能语义 AI 应用程序,无论是聊天机器人、利用自然语言处理 (NLP) 的认知搜索,还是推荐引擎,都可以利用您的企业知识图谱来提取、关联和提供答案、建议和见解。
随着语义技术的出现,出现了几个术语,例如本体论、三元组存储、语义数据模型、图形数据库和知识图谱。而这还是在我们进入 SKOS、RDF、OWL 等标准之前。虽然很容易深入了解细节,但出于本博客的目的,我将重点介绍构成企业知识图谱的组件的高级概述。
什么是企业知识图谱?
企业知识图谱是组织知识域和可理解工件的表示形式。它是对组织的知识资产、内容和数据的引用集合,它利用数据模型来描述人员、地点和事物以及它们之间的关系。知识图谱的一些更突出的例子当然是 Google 的实现和 LinkedIn。当您在 Google 中搜索“列奥纳多·达·芬奇”时,搜索引擎不仅提供传统的搜索结果,而且由于它了解您正在搜索特定的人列奥纳多·达·芬奇,因此它会提供一个信息框或知识面板,以及传统的搜索结果,其中包含有关独特人物的具体信息以及他或她与图表中其他已知对象(例如艺术品)的关系, 兄弟姐妹,以及有关相似人物的推荐。右图显示了来自 Google 的这个例子。
相比之下,企业知识图谱基于您组织的内容、数据和信息资产,并利用适用于您的行业甚至特定于您的组织的数据模型。
开发可靠的知识图谱需要几个关键要素,下图概述了它们如何相互馈送以生成全面的企业知识图谱。
企业知识图谱的关键组件
-
业务分类法 – 虽然我们已经详细讨论了业务分类法,但我们的“60 秒分类法”视频提供了简要概述。出于本讨论的目的,业务分类描述了您组织的词汇、常用术语和同义词。然后,这将作为您的组织向机器传授您的语言的基础。
-
业务本体 – 简而言之,本体是一种语义数据模型,是描述我们在组织中谈论的各种类型的事物(如产品、项目和人员)的映射;他们的属性,如名称、描述和专业知识;以及事物之间关系的类型。例如,一个人可以是项目的项目经理,或者项目 A 是关于产品 B的,甚至客户 C 对服务 D 和服务 E 感兴趣。这里的关键是,上述业务分类法是开发相关且适用的本体的基本组成部分。使用本体,我们将字符串转换为事物,或将元数据转换为具有自己的元数据(即上下文)的对象。
-
内容和数据源 – 每个组织都有各种数据源和系统,每个数据源和系统都专注于特定领域,例如内容和文档管理、高度结构化数据的数据库、数字资产管理、人力资源、学习和发展、客户管理等。挑战在于,组织知识存在于许多(通常是不同的孤立系统)中。进入图形数据库。
-
图形数据库 – 也称为三元组存储,此数据库包含对源系统中知识对象的引用、来自各种源的每个对象的属性以及这些对象之间的关系的全面引用集合。
将结构化和非结构化数据源的数据集成到图形数据库中本身就是一个重大成功。然而,为了充分利用语义技术背后的力量并提供语义 AI 应用程序可以利用的上下文、含义和关系,我们需要将语义数据模型或本体与图形数据库中的数据相结合。将语义数据模型应用于集成数据之上,可生成真正语义丰富的企业知识图谱。
为什么我需要企业知识图谱?
简而言之,企业知识图谱是语义 AI 的支柱。知识图谱为 AI 应用程序提供智能。换句话说,知识图谱提供了数据中各种概念背后的上下文和含义。知识图谱可帮助机器理解一个人就是一个人,并且一个人可以具有其他概念所不具备的特定属性,例如头衔、在项目中的角色、专业领域、出生日期、口语等。现在,如果我们可以帮助机器理解项目是什么,项目可以具有哪些核心属性,例如开始和结束日期、重点领域、产品、客户、项目经理等,该怎么办。更进一步,知识图谱允许机器对您的数据进行推断,这是相关推荐引擎、预测分析和其他高级 AI 应用程序的基础。
通过这些简单的例子,我们现在可以看到教机器我们话语背后的含义以及我们各种概念之间的关系背后的力量。
总之,企业知识图谱的一些主要优势是:
-
企业知识图谱为您的 AI 统计算法提供上下文,以实现广受欢迎的认知应用程序。
-
企业知识图谱可帮助您的 AI 通过集成内容中的推理发现隐藏的事实和关系,否则您将无法大规模捕捉这些事实和关系。
-
企业知识图谱可帮助您识别整个组织中不同数据源中关于特定主题的所有信息,包括特定人员、项目、产品、索赔等。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。