本文介绍了一种名为 iText2KG 的增量式知识图谱构建方法,该方法利用大型语言模型 (LLM) 从原始文档中构建知识图谱,并通过四个模块(文档提炼器、增量实体提取器、增量关系提取器和图谱集成器)实现增量式知识图谱构建,无需事先定义本体或进行大量的监督训练。
Key Takeaways
- 大多数可用数据是非结构化的,这对获取有价值的信息提出了挑战。
- 自动构建知识图谱 (KG) 对结构化数据并使其可访问至关重要,这使用户能够有效地搜索信息。
- 传统方法,如命名实体识别和关系提取,在信息检索中发挥关键作用,但存在局限性,包括使用预定义的实体类型和对监督学习的需求。
- iText2KG 是一种增量式、主题独立的 KG 构建方法,无需后期处理。
- 该方法包括四个模块:文档提炼器、增量实体提取器、增量关系提取器和图集成器和可视化。
- iText2KG 在将科学论文、网站和简历转换为图谱的三个场景中都表现出了优于基准方法的性能。
- 该方法还解决了其他方法中常见的语义重复和未解决实体的问题。
Source:
https://arxiv.org/pdf/2409.03284
摘要
大多数可用数据都是非结构化的,因此很难访问有价值的信息。自动构建知识图谱 (KG) 对于构建数据并使其可访问至关重要,从而使用户能够有效地搜索信息。KG 还有助于洞察、推理和推理。传统的 NLP 方法(如命名实体识别和关系提取)是信息检索的关键,但面临限制,包括使用预定义的实体类型和监督学习的需求。目前的研究利用了大型语言模型的功能,例如零样本或少样本学习。但是,未解析和语义重复的实体和关系仍然会带来挑战,导致图形不一致,并且需要大量的后处理。此外,大多数方法都与主题相关。在本文中,我们提出了 iText2KG ,一种无需后处理的增量、独立于主题的 KG 构建方法。这种即插即用的零镜头方法适用于广泛的 KG 构建场景,包括四个模块:Document Distiller、Incremental Entity Extractor、Incremental Relation Extracter 以及 Graph Integrator and Visualization。与基线方法相比,我们的方法在三种情况下表现出卓越的性能:将科学论文转换为图表、网站转换为图表以及将简历转换为图表。
Keywords:
知识图谱构建 大型语言模型 自然语言处理。
1Introduction介绍
在当代,大多数数据都是非结构化的,如果不能有效利用,会导致大量信息丢失。这种非结构化数据缺乏预定义的格式,对传统的数据处理方法构成了重大挑战。因此,组织必须采用先进的文本理解和信息提取技术来有效地分析和从这些数据中提取有意义的见解。
文本理解和信息提取是自然语言处理 (NLP) 中的关键任务,用于自动处理来自非结构化文本文档的数据。Transformer 架构和预先训练的大型语言模型 (LLM) 的兴起为从大量自然语言文本中提取和构建信息开辟了新的视角。一个主要方面涉及知识图谱 (KG) 的构建。KG 通过捕获实体之间的关系来构建知识的表示,并且在分析文本数据集合和从结构化异构数据推断知识方面具有相当大的优势。例如,KG 可以合并来自多个来源的不同数据,从而提供有凝聚力的信息视角。它们还可以为文本语料库的分析提供额外的可解释性。
命名实体识别、关系提取和实体解析是 NLP 技术,通常用于将非结构化文本转换为结构化数据,捕获实体、其连接和相关属性。但是,这些方法会遇到几个限制。它们通常仅限于预定义的实体和关系,或者依赖于特定的本体,并且主要依赖于监督学习方法,因此需要大量的人工注释。
为了应对这些挑战,我们的目标是利用 LLM 来构建 KG。LLM 的最新进展在各种 NLP 任务中显示出潜力和改进的性能,包括知识图谱完成、本体优化和问答,为 KG 构建提供了广阔的前景。LLM 还表现出强大的小样本学习能力,支持即插即用解决方案,并且无需进行大量培训或微调。由于他们在广泛的信息源中接受过培训,因此可用于提取不同领域的知识。
因此,最近的研究已经开始利用 LLM 的进步,尤其是它们在 KGs 构建任务中的小样本学习能力。但是,未解析和语义重复的实体和关系仍然会带来重大挑战,导致图形不一致,需要进行大量的后处理。这些不一致可能表现为冗余、歧义和图形扩展的真正困难。此外,许多当前方法都与主题相关,这意味着它们的有效性在很大程度上取决于它们旨在处理的特定用例。这种依赖关系限制了这些方法在不同领域的通用性,因此需要为每个新主题领域定制解决方案。
在本文中,我们提出了 iText2KG ,一种使用 LLM 从原始文档增量构建一致 KG 的零样本方法。它包括四个模块:1) Document Distiller 使用 LLM 将原始文档通过采用架构或蓝图重新划分为预定义的语义块。该模式的运行方式类似于预定义的 JSON 结构,指示语言模型从每个文档中提取与特定键相关的特定文本信息,2) iEntities Extractor 获取语义块,不仅识别语义块中的唯一语义实体,还解决任何歧义,确保每个实体都得到明确定义并与其他实体区分开来, 3) iRelation Extractor 处理已解析的实体以及语义块,以检测语义上唯一的关系。更多详细信息将在下一节中介绍。最后一个模块使用 Neo4j 以图形格式直观地表示这些关系和实体。
2Related works相关作品
基于 LLM 的构建 KG 的解决方案可以根据三种范式进行分类:基于本体、微调和零或少样本学习。
AttacKG+ 方法是一种基于 LLM 的全自动框架,用于构建攻击 KG 并捕获网络攻击的渐进阶段,由 .该框架由四个模块组成:rewriter、parser、identifier 和 summarizer。重写器过滤掉冗余信息,将报告内容组织成多个部分以保留关键知识,预清理数据,并按时间顺序对事件进行排序。在本体的引导下,解析器使用三元组模型(主题、操作、对象)提取威胁操作。标识符将这些行为图和重写的部分与适当的格式匹配。最后,摘要器概述了每个战术阶段结束时的情况和状态。提出了一种特定主题的 KG (ThemeKG),使用无监督框架 (TKGCon) 从特定主题的语料库构建,以解决两个主要问题:信息颗粒度有限和及时性不足。这种方法通过利用 Wikipedia 和 LLM 中的常识知识作为本体指导,生成具有准确实体和关系的 KG。他们的模型在性能上超过了 GPT-4,因为它始终如一地精确识别实体和关系
Text2KGBench 是一个基准测试,旨在评估语言模型在本体指导下从自然语言文本生成 KG 的能力,由 .他们定义了七个评估指标来衡量事实提取性能、本体一致性和幻觉。在最近的研究中引入了一种使用开源 LLM 构建 KG 的半自动方法。他们的管道包括制定能力问题 (CQ) 并开发从中衍生的本体。为了评估生成答案的准确性,他们设计了一个 judge LLM,根据基本事实评估内容。这些所提出的方法的一个主要挑战是,由于它们的本体依赖性,它们难以将其适用性推广到不同的 KG 构建场景。维基百科概念图也不是详尽无遗的,特别是对于特定国家的概念。例如,它可能没有充分涵盖“法国研究合作税收抵免”等术语。
LLM 用于从非结构化开源威胁情报构建 KG。这种方法涉及利用 GPT-3.5 的零样本功能生成数据集。随后,此数据集用于微调较小的语言模型。这种方法的一个主要挑战是使其适应不同的 KG 施工场景。特别是,小样本方法比微调解决方案更节省资源。
提出了一种基于迭代 LLM 提示的管道,用于自动生成知识图谱,它绕过了对预定义集或外部本体的需求。此管道为每个阶段采用一系列格式正确的 LLM 提示,从而能够识别相关实体、提取其描述和类型,并识别有意义的关系。作者提出了一种使用语义聚合和 LLM 提示的实体 / 关系解析方法。它从语义聚合开始,使用 Universal Sentence Encoder 模型的 Levenshtein 距离和余弦相似度等方法,根据标签相似性、实体类型相似性和描述相似性计算实体和关系的相似性分数。如果实体和关系的分数超过预定义的阈值,则会聚合实体和关系。尽管所提出的方法具有几个优点,但它也有一定的局限性:
(1) 实体/关系解析阶段聚合具有相同含义的节点和关系,然后 LLM 根据集群元素为每个集群建议一个代表。这可能会妨碍图形的精确性,尤其是在需要将 “bike” 和 “motorcycle” 分开时。尽管如此,该模型还是将它们合并为“车辆”。
(2) 后一阶段涉及后处理,这可能是计算密集型的。
(3) 后处理阶段假定提取了实体和关系。因此,如果在关系提取之前未解析实体,则可能会出现来自冗余实体的冗余关系,从而降低关系提取的质量。
对 LLM 用于 KG 构建和推理进行了全面的定量和定性评估,使用八个不同的数据集,涵盖四个代表性任务:实体和关系提取、事件提取、链接预测和问答。主要发现表明,虽然 GPT-4 在 KG 构建任务中表现良好,但它在推理任务中表现得更出色,有时甚至超过了微调模型。本文还提出了 AutoKG,这是一种基于多代理的方法,它利用 LLM 和外部资源进行 KG 构建和推理。
3增量文本2KG
这项工作旨在开发一种即插即用的解决方案,用于从以已解析的实体和关系作为输出的文档构建 KG。采用“零喷射”方法对于确保解决方案在各种 KG 施工场景中的适用性至关重要。这种方法意味着用于生成 KG 的提示不需要先前的示例或预定义的本体。
3.1 问题制定
图形可以定义为 G = ( E , R ),其中 E 是节点集,R 表示边集。考虑到合并相似概念的难度,我们为解决方案定义了两个约束:
-
(C1) 实体 e i ∈ E ,实体集和关系 r k ∈ R ,关系集,都应该描述语义上唯一的概念。
-
(C2) 实体和关系集应包含语义上唯一的元素。这意味着知识图谱中的每个实体和关系都必须是不同的和唯一的,没有重复或语义重叠。
3.2 建议的方法
我们提出了由四个模块组成的 iText2KG 方法(见图):Document Distiller、Incremental Entities Extractor、Incremental Relations Extractor 和 Neo4j Graph Integrator。每个模块在构建 KG 中都扮演着不同的角色。值得注意的是,实体提取和关系提取任务按照 中所述的结果分开,这对性能有积极影响。模块 1 到 3 的更多详细信息如下,第四个模块用于可视化图表。
图 1:iText2KG 模块的整体工作流程。模块 3 Incremental Relations Extractor 的操作方式不同,具体取决于是全局还是本地文档实体作为上下文提供。
3.2.1 模块 1 - 文档提取器:
该模块使用 LLM 将输入文档重写为语义块,考虑预定义的架构或蓝图。需要注意的是,该模式不是一个本体,而是一个蓝图,它使 LLM 偏向于特定类,同时保持其他类的灵活性。实际上,该架构的功能类似于预定义的 JSON,指示 LLM 从每个文档中提取特定键的特定值(文本信息)。iText2KG Github 存储库中提供了一些蓝图示例。对于每个文档,我们将获取一个 JSON,其中包含所需的信息(如果文档中存在)。然后,我们将所有这些半填充的 JSON 聚合起来,形成文档的语义块。我们使用了 Langchain 的 JSON 解析器来定义架构以及作为上下文的文档。本模块的主要目标是:(a) 通过减少可能用冗余信息污染图形的噪声来提高信噪比。(b) 指导使用 Schema 构建图形的过程,尤其是概念键。例如,对于一篇科学文章,我们可以提取 “title” 和 “authors”,并在语义信息之外添加 “HAS TITLE” 和 “HAS AUTHORS” 等关系。为了确保我们的解决方案在各种用例中的适用性,架构是一个输入,它取决于用户偏好和用例的特殊性。以下论文证明了重新制定原始文档以增强图形构建过程的想法。前面提到的两篇论文介绍了一个 rewriter 模块,但这取决于文章的具体用例。但是,我们的模块适用于许多用例。
3.2.2 模块 2 – 增量实体提取器:
增量实体匹配器 ( iEntities Matcher ) 迭代所有语义块并提取全局文档实体。iEntities Matcher 的主要算法如图 所示。最初,使用 LLM 从第一个语义块(文档)d 中提取实体,形成全局实体集 E,前提是这些实体仅在第一次迭代中成对不同。考虑到约束 (C1) ,系统会提示 LLM 提取表示一个唯一概念的实体,以避免语义混合实体(提示显示在 iText2KG GitHub 存储库中)。
对于 D 中的后续文档 d ,该算法提取本地实体 E d 。然后,它会尝试将这些本地实体与 E 中的全局实体匹配。如果在 E 中找到局部实体 e i ,则会将其添加到匹配的集合 E d , matched 中。如果不是,则算法使用具有预定义阈值的余弦相似度度量在 E 中搜索相似实体。如果未找到匹配项,则将本地实体添加到 E d , matched ;否则,将添加最匹配的全局实体 E I ′(基于最大相似度)。然后,通过将全局实体集 E 与 E d , matched 统一来更新全局实体集 E 。对 D 中的每个文档重复此过程,从而生成一个全面的全局实体集 E 。
图 2:iEntities Matcher 的算法
3.2.3 模块 3 – 增量关系提取器:
全局文档实体 E 作为上下文与每个语义块一起提供给增量关系匹配器 ( iRelations Matcher ),以提取全局文档关系。用于 iEntities Matcher 的相同方法适用于此处。我们观察到关系提取中的不同行为,具体取决于全局实体还是局部实体用作 LLM 语义块的上下文。当全局实体作为上下文提供时,LLM 会提取语义块直接声明和暗示的关系,特别是对于语义块中未明确存在的实体。这用潜在信息丰富了图形,但增加了不相关关系的可能性。相反,当本地匹配的实体作为 context 提供时,LLM 仅提取 context 直接声明的关系。这种方法降低了图形的丰富性,但也降低了不相关关系的概率。iRelations Matcher 的两个版本如图 所示。此结果将在 Section 中进一步讨论。
图 3:iRelations Matcher 的两个版本
3.2.4 模块 4 – 图谱集成器:
全局文档实体和全局文档关系被馈送到 Neo4j 中以构建知识图谱。
4Experiments实验
我们在所有实验中都选择了 GPT-4,因为它在 KG 构造和推理能力方面的表现,如 所示。值得注意的是,GPT-4 即使在零镜头场景中也能实现近乎微调的最先进的性能。要验证我们的方法,必须首先评估模块 1,以确保提取的信息与模式和输入文档的语义一致。此外,评估模块 1 和 2 关于提取的三元组和实体/关系解析的质量也很重要。为了确保我们的方法在不同的 KG 建设场景中的适用性,我们采用了三个用例:网站到 KG、科学文章到 KG 和简历到 KG。
我们已将模块 1 中建议的指标调整到我们的用例中。因此,我们提出以下指标:
-
•
Schema一致性:评估重写文本的内容是否与输入架构(蓝图)匹配。对于模式中提供的每个键,我们将 C s ( k )定义为与与键 k 相关的模式正确匹配的元素数。I s ( k ) 作为已添加但不属于架构的元素数。架构中键的一致性分数为:
如:
T s ( k ) :模式中与键对应的元素总数 k 。
如果 C s ( k ) < I s ( k ) , S C ( k ) = .
因此,架构一致性分数为:
其中 K 是架构的键集。
-
•
信息一致性:评估重写文本的内容是否与原始报告的语义匹配,分类如下:非常不同 (<30%)、中等 (30-60%)、基本一致 (60-90%) 和完全一致 (>90%)。
对于第二个和第三个模块,请务必确保解析提取的实体和关系,并且提取的三元组与输入文档相关。因此,我们提出以下指标:
-
•
三元组提取精度:评估三元组与相应文本的一致性,而不考虑实体/关系解析过程。重要的是要注意,相关的三元组是隐含的,不一定由文本直接说明。我们将精确率分数定义为提取的相关三元组的数量除以提取的三元组的总数。
-
•
实体/关系解析错误发现率:评估未解析(误报)实体或关系在提取的实体或关系总数中的比例。具体来说,我们计算未解析的实体或关系与提取的实体或关系总数的比率。此指标通过突出显示错误(未解决的实体/关系)在总提取中的比例,清楚地表明了实体和关系提取过程的可靠性。
4.1 数据集和基线方法
为了评估 Document Distiller,我们使用 GPT-4 生成了 5 份简历,选择了 5 个公司网站和 5 篇科学文章。需要注意的是,我们已经从网站中提取了文本信息,这些信息将作为我们模型的输入。
为了评估 iEntities Extractor 和 iRelations Extractor 提取的三元组的一致性,我们使用了来自 的带注释的数据集。我们观察到,该数据集对于三元组提取并不详尽,因此我们对数据集中不存在的三元组进行手动检查。这种手动检查与上述数据集相结合,构成了 Ground Truth。为了评估实体/关系解析过程的错误发现率,我们使用不同的基线方法执行了 KG 构建过程。
我们将我们的方法与基线方法进行了比较,包括使用 OpenAI 函数方法、Langchain 和 LlamaIndex 进行图构建。
4.2 第一个模块评估结果
4.2.1 架构一致性
表1表明 Document Distiller 在各种文档类型之间实现了高度架构一致性。科学文章和 CV 的架构一致性得分最高,这表明该模块能够处理结构化信息,特别是对于数据主要使用标题组织的文档。虽然网站仍然获得了 0.94 分的高分,但其一致性略低,这可能是由于 Web 内容的多样性和结构化程度较低。这些结果突出了 Document Distiller 在处理和从各种文档类型中提取结构化信息方面的稳健性和适应性。表 1:不同类型文档的架构一致性分数。
| 文件 | 简历 | 科学文章 | 网站 |
|
| — | — | — | — | — |
| 架构一致性分数 | 0.97 ± 0.09 | 0.98 ± 0.04 | 0.94 ± 0.13 |
|
4.2.2 信息一致性
图说明了不同类型文档(简历、科学文章和网站)之间的信息一致性。对于 CV,大多数信息 (74.5%) 是完全一致的,其中 25.5% 基本一致,没有中等一致性。这表示重写的文本与 CV 的原始内容的语义非常匹配。这是因为简历主要以清晰简洁的短语编写,使 LLM 更容易捕捉语义。在科学文章的情况下,57.1% 的信息是完全一致的,42.9% 的信息基本一致,显示出在保留原始语义方面的高度准确性,尽管略低于 CV。这是可以预见的,特别是因为科学文章是用科学英语写的,短语更复杂。网站的信息有 56.0% 的信息完全一致,24.0% 的信息基本一致,20.0% 的信息中等一致性。这可能是由于 Web 内容的非结构化性质,这对准确的语义重写构成了更大的挑战。
图 4:不同类型文档的信息一致性分数的条形图
4.3 第二模块和第三模块评估结果
4.3.1 三元组提取
表显示了关系提取中的不同行为,具体取决于全局实体还是局部实体用作 LLM 语义块的上下文。当全局实体作为上下文馈送时,相关三元组的精度比当本地实体作为上下文馈送时相关三元组的精度低 10%。当全局实体用作上下文时,LLM 会提取语义块中明确提及和暗示的关系。这会导致图形更丰富,具有更多潜在信息,并且不相关关系的可能性更高。另一方面,使用本地匹配的实体作为上下文会导致 LLM 仅提取直接陈述的关系,从而导致图形的丰富程度较低,但不相关关系的可能性较低。
表 2:音乐和计算机科学两个数据集中相关三元组的精确率得分。全局实体的分数显示为上下文,本地实体的分数显示为上下文。
|
| 全局实体 | 本地实体 |
|
| — | — | — | — |
| 计算机科学数据集 | 0.83 ± 0.06 | 0.94 ± 0.06 |
|
| 音乐数据集 | 0.81 ± 0.05 | 0.9 ± 0.07 |
|
这会产生一种权衡,具体取决于使用案例。我们让用户决定是接受 10% 的精度降低以换取丰富的图形,还是使用不太丰富的图形获得 10% 的精度。
4.3.2 实体/关系解析
据我们所知,LlamaIndex 使用边缘级和节点级文本信息构建未连接的子图,用于检索增强生成 (RAG);因此,我们没有根据我们的方法评估 LlamaIndex。从 Table 和 Table 中,我们得出结论,我们的方法在三种不同的 KG 构建场景中为实体和关系解析过程提供了卓越的结果:科学文章到 KG,简历到 KG,网站到 KG。此外,结果表明,当输入文档的数量较少并且它们由清晰、不复杂的短语构成时,LLM 在实体和关系解析方面表现良好,如 CVs 到 KG 过程所证明的那样。
表 3:三种 KG 构造场景中实体解析过程中未解析实体的错误发现率。
|
| 功能 | 语言链 | LlamaIndex | 我们的方法 |
| — | — | — | — | — |
| 科学文章 | 0.11 ± 0.04 | 0.14 ± 0.08 | - | 0.01 ± 0.01 |
| 简历 | 0 | 0 | - | 0 |
| 网站 | 0.31 ± 0.05 | 0.29 ± 0.06 | - | 0 |
表 4:错误发现 三种 KG 构建场景中关系解析过程的未解析关系的比率。
|
| OpenAI 功能 | Langchain | LlamaIndex | 我们的方法 |
| — | — | — | — | — |
| 科学文章 | 0,07 ± 0,01 | 0.06 ± 0.01 | - | 0.01 ± 0.01 |
| CVs简历 | 0 | 0 | - | 0 |
| Websites网站 | 0.15 ± 0.01 | 0.14 ± 0.02 | - | 0 |
此外,未解析的实体和网站与 KG 的关系的错误发现率高于其他 KG 构建场景。这是由于文档 (块) 数量较多,并且网站文本信息具有非结构化性质。因此,如果没有有效的解决过程,LLM 很难映射相似的实体或关系。因此,只要文档(块)的数量很大,并且文本是非结构化的,语言复杂,实体 / 关系解析过程对于构建一致的 KG 就变得至关重要。
4.3.3 阈值估计
为了估计基于余弦相似性合并实体和关系的阈值,使用 GPT-4 生成了一个包含 1,500 个相似实体对和 500 个关系的数据集,其灵感来自各个领域(例如,新闻、科学文章、人力资源实践),并在 iText2KG GitHub 存储库中提供。实体和关系使用预先训练的模型 text-embedding-3-large 进行矢量化。然后计算这些数据集的余弦相似性的平均值和标准差(表)。选择上限阈值(例如 0.7)以确保高精度,而较低的阈值会降低分辨率特异性。
表 5:实体和关系解析的两个数据集的余弦相似性。
| Entities Dataset
实体数据集 | Relationships Dataset
关系数据集 |
| — | — |
| 0.6 ± 0.12 | 0.56 ± 0.1 |
为了说明 KG 构建的结果,图5 显示了基线方法和 iText2KG 在三种不同情况下的比较。观察结果如下:
图 5:基线方法和我们的方法 iText2KG 之间三种情况下的 KG 构建比较。
基线方法揭示了在所有三种 KG 构造场景中都存在没有关系的孤立节点。这种现象可能归因于实体提取和关系提取的同时执行,这会在语言模型中诱发幻觉效果,导致 “遗忘” 效应。这一观察结果支持 的研究结果,该发现表明分离实体和关系提取过程可以提高性能。
从“从网站到知识图谱”的场景来看,输入文档数量的增加与图中的噪声节点的出现相关。这突显了模块1有效提炼和精炼输入数据的关键需求。
iText2KG 方法演示了三种 KG 构造方案中改进的实体和关系解析。根据 Table 和 Table 中的数据,当输入文档较少且由简单、不复杂的短语组成时,语言模型在实体和关系解析方面表现出很高的效率,正如 “CVs to KG” 过程中所证明的那样。相反,随着数据集的复杂和庞大,挑战就会增加,如“网站到 KG”场景所示。
此外,重要的是要强调输入文档的分块大小和阈值对 KG 构造的影响。Document Distiller 的输入文档可以是独立的文档或块。如果块大小较小,则语义块将从文档中捕获更具体的详细信息,反之亦然。
5Conclusion结论
在本文中,我们介绍了 iText2KG ,一种利用 LLM 的零镜头功能进行增量 KG 构建的方法。我们的方法解决了传统 KG 构建过程中固有的局限性,这些局限性通常取决于预定义的本体论和广泛的监督培训。
iText2KG 方法的一个关键优势是其灵活性,这源于使用用户定义的蓝图,该蓝图概述了在 KG 构建过程中要提取的关键组件。这使得该方法能够适应广泛的场景,因为没有适用于所有用例的通用蓝图;相反,设计因具体应用而异。此外,iText2KG 方法通过使用灵活的、用户定义的蓝图来指导提取过程,从而实现文档类型的独立性,使其能够处理结构化和非结构化文本。
对不同背景(例如科学文献、Web 内容和简历)的实证评估表明,与已建立的基线方法相比,iText2KG 方法的性能更优越。该方法在实体和关系提取中实现了增强的架构一致性和高精度,有效地缓解了传统方法中普遍存在的语义重复和未解析实体的相关问题。
未来的研究将侧重于增强高级实体和关系匹配的余弦相似度等指标,消除将阈值定义为超参数的必要性,以及将实体类型集成为匹配过程的参数。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。