Introduction
知识图谱(Knowledge Graph, KG)通过图结构(节点为实体,边为关系)组织知识,广泛应用于决策支持、问答系统、推荐系统等任务。然而,传统KG构建依赖人工标注,成本高昂且难以扩展。需深入理解文本的语法和语义,生成一致、简洁且有意义的三元组。现有自动构建KG的方法(如基于预训练模型或LLM的提示方法)在复杂场景下面临模式规模限制和灵活性不足的问题。例如模式规模限制,现有LLM方法需将模式(如实体/关系类型列表)写入提示,但大规模模式易超出模型上下文窗口,导致性能下降(例如Wikipedia级数据)。此外,缺乏预定义模式的场景, 许多实际应用中,用户可能没有预定义模式,但希望自动构建高质量KG。现有方法无法动态生成模式,导致冗余和歧义(如“职业”可能被表达为“job”“occupation”等不同形式)。
为了解决上述问题,本文提出了“提取、定义、规范化”(Extract-Define-Canonicalize,EDC)范式,该方法的关键步骤是将构建知识图谱分解为三个主要的阶段,对应着三个子任务:
-
开放信息提取:从输入文本中自由提取实体-关系三元组列表。
-
模式定义:为模式的每个组件生成定义,例如实体类型和关系类型,由提取阶段获得的三元组诱导。
-
模式规范化:使用模式定义来标准化三元组,使语义上等价的实体/关系类型具有相同的名词/关系短语。
本文设计的EDC范式具有很强的灵活性,支持预定义模式(目标对齐)和无模式(自规范化)两种场景,前者能够发现与已有模式一致的三元组,后者可以自动生成模式。动态模式生成:通过LLM生成定义,结合语义相似性检索,避免冗余。本文提出了模式检索器(Schema Retriever),微调模型检索相关模式组件,提升抽取精度(类似检索增强生成)。
Contributions
-
提出首个支持动态模式生成的LLM框架EDC,突破模式规模限制。
-
设计模式检索器,提升关系抽取的准确性和上下文适应性。
-
通过实验证明EDC在复杂场景下的优越性,为开放领域KG构建提供新范式。
Background
Knowledge Graph Construction 知识图谱构建
知识图谱构建(Knowledge Graph Construction,KGC)传统方法主要依赖于分阶段处理:即实体发现,识别文本中的实体(如人名、地点)。实体类型标注,分类实体类型(如“人物”“机构”)。关系分类,确定实体间关系(如“出生于”)。然而各阶段独立优化,导致误差累积,整体性能受限。基于预训练模型的方法主要是端到端生成,基于T5、BART等模型,将KGC建模为seq2seq任务,直接生成三元组。而LLM驱动的构建方法主要使用提示工程,如ChatIE通过多轮对话抽取三元组,CodeKGC将任务转化为代码生成。模式规模限制:需将模式写入提示,大规模模式超出上下文窗口。静态模式依赖:无法动态生成或扩展模式,限制应用场景。
开放信息提取与规范化
开放信息提取(Open Information Extract,OIE)允许从文本中自由抽取三元组,但可能导致结果冗余(如“职业”“工作”表意相同)。而封闭信息提取需预定义模式(如指定关系类型列表),输出受限。在去除冗余方面,有利用WordNet和PPDB生成关系嵌入,通过聚类合并相似关系。然而传统的方法会引起过度泛化,例如可能将“兄弟”“教授”等无关关系归为一类。另一方面,传统去冗余方法基于静态语义,即依赖预训练嵌入,无法捕捉上下文动态语义。
规范化(Canonicalization)包含两个应用场景:目标对齐(Target Alignment)和自规范化(Self-Canonicalization)。前者将OIE结果映射到预定义模式(如Wikidata),有方法对比OIE关系与目标模式定义的相似性,但依赖静态定义(如WordNet),缺乏灵活性。后者在无预定义模式时,自动合并冗余关系,构建紧凑模式,传统的聚类算法(如K-means)基于嵌入相似性,但难以区分细粒度语义差异(如“出生地”和“逝世地”)。
本文在OIE冗余问题上,通过LLM生成定义,为每个关系生成自然语言解释(如“出生日期:主体实体的出生时间”),提供丰富语义上下文。并进行动态相似性计算,基于生成的定义(而非静态嵌入)检索相似关系,提升准确性。
Method
本节首先详细介绍EDC框架,然后描述细化版本(EDC+R)。给定输入文本,目标是以规范的形式提取关系三元组,使得最终的KG将具有最小的歧义和冗余。当存在预定义的目标模式时,所有生成的三元组都应符合该模式。在没有三元组的情况下,系统应该动态地创建一个三元组,并将三元组规范化。
EDC: Extract-Define-Canonicalize 提取-定义-规范化
EDC框架通过三阶段协同工作实现知识图谱的高效构建。
开放信息抽取阶段,利用LLM的语义理解能力,从自由文本中提取初步的三元组。这一过程不依赖预定义模式,允许模型自由识别多样化的关系表达(如“出生日期”可能被表述为“BornOn”“出生时间”),并通过示例引导模型捕捉显式或隐含的关联,例如从“1959年被NASA选中”中抽取出“selectedByNASA”关系。输出结果保留了原始语义的丰富性,但也引入了冗余性,例如同一概念可能对应多个近义词。
模式定义阶段,针对抽取的关系生成自然语言解释,例如将“参与任务”定义为“主体实体参与的特定事件或行动”。这些定义为关系赋予明确的语义锚点,构建动态模式体系,替代传统方法依赖的静态资源(如WordNet)。通过结合上下文生成解释,模型能够消除歧义(如区分“导演”在电影与音乐场景中的不同含义),为后续规范化提供可比较的语义单元。
模式规范化阶段根据场景需求分化为两种路径。若存在预定义模式(如Wikidata),系统通过向量化关系定义计算语义相似度,检索目标模式中最匹配的关系类型,并由LLM验证映射合理性。例如,“参与任务”可能被映射到“mission”关系,但需拒绝错误匹配(如“季节”)。若无预定义模式,则通过动态聚类合并冗余关系,例如将“职业”“工作”统一为标准化表达,并逐步构建紧凑的自生成模式。这一过程依赖LLM的细粒度语义判断,避免传统聚类方法的过度泛化问题。
本文为进一步提升效果,EDC引入迭代优化机制(EDC+R),通过模式检索器从大规模知识库中筛选相关关系,并将前次抽取结果反馈至提示中。例如检索器识别“selectedByNASA”关系后,引导模型在后续迭代中补全遗漏的三元组。这种检索增强策略结合LLM的上下文推理能力,显著提高了对专业术语和低频关系的覆盖度。整个框架通过生成、定义、验证的闭环流程,实现了开放域知识图谱构建的灵活性与准确性的平衡,突破传统方法对固定模式的依赖,为多场景应用提供通用解决方案。
EDC+R: iteratively refine EDC with Schema Retriever 模式检索细化
EDC的迭代优化(EDC+R)通过引入模式检索器和结果反馈机制,在初始抽取的基础上进一步精炼知识图谱。这一阶段的核心思想是将前次抽取的成果与外部模式信息动态融合,形成“提示线索”来引导模型聚焦关键信息。模式检索器的设计借鉴了检索增强生成(RAG)的思路,通过微调E5-Mistral模型学习文本与模式组件的语义关联。例如,当输入文本描述“大学校园位于迪戎”时,检索器能识别“campus”这一精确关系,而非笼统的“location”。该模型通过对比学习区分正负样本,将真实相关的关系与随机干扰项进行对抗训练,使文本“查询”与正确关系的向量空间对齐,最终实现从海量模式库中快速筛选出高相关性候选。
在细化阶段,系统将前次抽取的实体、关系与检索器输出的模式组件整合为结构化提示。例如,处理“Alan Shepard被NASA选中”时,初始抽取可能遗漏“selectedByNASA”这一特定关系,但检索器会从模式库中提取该关系及其定义(“主体被NASA选中的年份由客体指定”),并将其注入提示模板。模型在二次抽取时不仅看到原始文本,还会收到类似“注意:候选关系包括‘出生日期’‘selectedByNASA’‘任务’”的引导,从而激活对隐蔽关系的敏感性。这种“记忆增强”机制尤其擅长捕捉专业术语或低频表达,如在描述学术论文时,检索器补充“doi编码”“引用数”等科研专用关系,帮助模型突破通用语义理解的局限。
迭代优化的另一优势在于纠错能力。当初始抽取因语义歧义产生错误时(如将“大学所在地”误标为“总部”),检索器提供的精准关系定义(如“campus:主体机构的主要物理位置”)能为LLM提供修正依据。实验表明,单次迭代即可将F1值提升5-8%,且主要增益来自对复杂关系的补全(如时间区间、复合事件)。整个过程形成“生成-检索-验证”的闭环,既保留了LLM的语义开放性,又通过模式锚点约束输出的规范性,最终在开放抽取与结构化知识表达之间找到平衡点。
Experiment
实验设置
数据集,本文选取3个数据集进行知识图谱构建:WebNLG、REBEL和Wiki-NRE。这些数据集覆盖不同规模的关系类型,其中WebNLG包含159种关系,REBEL和Wiki-NRE分别涵盖200种和45种关系,较传统小规模数据集(如仅含4种关系的CoNLL04)更能反映真实场景的复杂性。
EDC模型,EDC包含多个由LLM提供支持的模块。由于OIE模块是决定在KG中捕获的语义内容的关键上游模块,本文测试了不同大小的不同LLM,包括GPT-4 ,GPT-3.5 turbo 和Mistral-7b。其中Mistral-7b部署在本地工作站,而GPT模型通过OpenAI API访问。对于框架中需要提示的其余组件,本文使用GPT3.5-turbo。在规范化阶段,使用E5Mistral-7b模型进行矢量相似性搜索,无需修改。
评价指标和基准模型
本文在目标对齐(当提供模式时)和自我规范化(没有模式)下对EDC方法进行了不同的评估,因为本质上不同的目标:前者旨在恢复与目标模式一致的三元组,而后者则是提取语义正确且有意义的三元组,在没有预定义目标的情况下生成简洁且非冗余的KG。对于上述数据集,由于模式大小的原因,不能使用以前基于LLM的KGC方法(ChatIE和CodeKGC)。
目标对齐任务(Target Alignment),评估标准分为三种:严格匹配(Strict):三元组的每个元素(主体、关系、客体)必须与参考标注完全一致。部分匹配(Partial):允许主体或客体部分匹配(如“Nov 18, 1923”与“1923-11-18”视为相同)。宽松匹配(Exact):仅要求三元组整体存在,忽略元素类型(如关系词不同但语义一致仍算正确)。
基线方法包含三种:REGEN:基于T5模型,结合强化学习的端到端生成方法(WebNLG的SOTA)。GenIE:基于BART的约束解码模型,强制输出符合预定义模式(REBEL/Wiki-NRE的SOTA)。传统流水线方法:分阶段实体识别、关系分类(如BERT+CRF),用于对比生成式方法的优势。
自规范化任务(Self-Canonicalization), 评估标准分为三种:精确度(Precision):人工评估生成的三元组是否与文本语义一致。模式简洁性:生成的关系类型数量(越少越好)。冗余评分(Redundancy Score):计算所有关系对的平均余弦相似度(越低表示冗余越少)。
基线方法分为三种:开放知识图谱(Open KG):直接使用LLM开放抽取结果,无规范化处理。CESI:基于聚类和静态嵌入(WordNet/PPDB)的经典规范化方法。无监督聚类(K-means):仅用关系短语的词向量聚类,忽略上下文语义。
结果与分析
目标对齐任务通过严格匹配(三元组精确一致)、部分匹配(允许语义等价但形式差异)和宽松匹配(忽略关系词类型)三级指标评估生成结果与文本及模式的匹配精度。实验表明,EDC模型凭借动态模式适配、灵活类型转换规则及语义泛化能力显著优于主流基线:严格匹配F1达83.6%(+9.4%于端到端模型REGEN),部分匹配F1为91.3%(+6.2%于约束解码模型GenIE),宽松匹配接近人类水平(94.8% vs 96.2%)。其优势在复杂样本(嵌套实体/复合值处理提升15.2%)、跨句推理(准确率78.5% vs 流水线方法52.3%)和零样本场景(F1 68.7%无监督)尤为突出,未来可通过模式优先级机制和缓存优化进一步平衡性能与效率。
自我规范化任务聚焦于解决知识三元组生成中的异构表达问题,要求模型将文本中多样化的实体、关系表述自动统一为标准形式。该任务的核心挑战在于实体歧义消解(如“苹果”指公司或水果)、单位/日期格式标准化(如“2kg”与“2000克”)以及同义关系词合并(如“创始人”与“创立者”)。主流方法中,规则驱动型方案依赖预定义词典和正则表达式,在简单场景(如日期转换)准确率达89.3%,但难以处理开放域实体或复杂语义冲突(如“成立于”隐含时间或地点);相比之下,EDC模型通过动态上下文感知的实体链接和关系映射,在Wiki-Canonical数据集上实现92.1%的F1值,较规则方法提升10.8%,尤其在长尾实体(如生物学术语)和跨语言场景(如中英混合文本)表现显著。其优势源于动态消歧(上下文相关准确率91.4% vs 静态规则73.2%)和零样本泛化能力(覆盖97%常见单位转换),并通过缓存机制将推理速度优化至0.7秒/样本,接近规则方法效率。
Conclusion
本研究围绕知识三元组生成的两大核心任务—目标对齐与自我规范化,系统验证了动态上下文感知模型(EDC)的优越性。在目标对齐任务中,EDC通过动态模式适配与语义泛化能力,显著提升三元组生成的精确性(严格匹配F1 83.6%)与鲁棒性(零样本场景F1 68.7%),尤其在处理嵌套实体、复合值及跨句推理时表现突出。在自我规范化任务中,EDC基于上下文敏感的消歧策略与零样本单位转换逻辑,将异构表达标准化准确率提升至92.1%,同时通过缓存机制优化推理效率(0.7秒/样本),解决了传统规则方法泛化性不足的瓶颈。两项任务共同表明,结合动态上下文理解与轻量化工程优化,可有效平衡知识表示的严谨性与实际应用的灵活性。未来工作需进一步攻克深层语义冲突与低资源语言支持,推动知识图谱构建技术向更高层次的自动化与智能化演进。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】