【干货收藏】法律文档转知识图谱：用GraphRAG让大模型精通法律知识

最新推荐文章于 2025-11-23 19:13:18 发布

原创最新推荐文章于 2025-11-23 19:13:18 发布 · 1.1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #程序员 #语言模型 #ai #大模型 #产品经理

在这里插入图片描述

From Legal Documents to Knowledge Graphs

文章摘要

本文探讨了如何利用LlamaCloud和Neo4j等先进工具，将复杂的法律文档转换为结构化知识图谱，以提升RAG（检索增强生成）系统的性能和准确性，为法律信息检索和分析开辟全新路径。

引言：传统RAG系统的局限性

在人工智能快速发展的今天，检索增强生成（RAG）技术已经成为增强大语言模型外部知识能力的强大工具。然而，传统的基于向量的RAG方法在处理复杂、相互关联的信息时，其局限性日益凸显。

简单的语义相似性搜索往往无法捕捉实体之间的细致关系，在多跳推理方面存在困难，并且可能遗漏跨多个文档的关键上下文。这些问题在法律领域尤为突出，因为法律文档具有内在的相互关联性，包含案例、法规、条例和先例之间复杂的引用网络，而传统向量搜索往往无法有效捕捉这些关系。

解决方案：结构化数据与知识图谱

为了应对这些挑战，一个特别有前景的解决方案是将数据结构化，以释放更复杂的检索和推理能力。通过将非结构化文档转换为结构化知识表示，我们可以执行复杂的图遍历、关系查询和上下文推理，这些远超简单的相似性匹配。

这正是LlamaCloud和Neo4j等工具发挥关键作用的地方。LlamaCloud提供强大的解析和提取能力，将原始文档转换为结构化数据。Neo4j则作为知识图谱表示的支撑，形成GraphRAG架构的基础，不仅能理解存在什么信息，还能理解所有信息是如何相互连接的。

法律领域的应用价值

法律领域是结构化数据方法在RAG中最具说服力的应用案例之一，信息检索的准确性和精确性在这里具有重要的现实影响。法律文档的层次性质，加上理解实体、条款和法律概念之间关系的关键重要性，使得结构化知识图谱在提高检索准确性方面特别有价值。

完整处理管道

处理流程概述

* 在这里插入图片描述
*

完整的处理管道包括以下四个关键步骤：

文档解析

：使用LlamaParse解析PDF文档并提取可读文本
文档分类

：使用LLM对合同类型进行分类，实现上下文感知处理
信息提取

：利用LlamaExtract基于分类结果提取特定合同类别的相关属性
图谱构建

：将所有结构化信息存储到Neo4j知识图谱中，创建丰富的、可查询的表示

环境配置

在运行代码之前，需要设置LlamaCloud和OpenAI的API密钥。对于Neo4j，最简单的方法是创建一个免费的Aura数据库实例。

使用LlamaParse进行OCR处理

本教程分析了来自合同理解阿提克斯数据集（CUAD）的商业合同样本。使用LlamaParse提取文本内容的代码如下：

python
# 使用指定模式初始化解析器

parser = LlamaParse(

    api_key=llama_api_key,

    parse_mode=
"parse_page_without_llm"

)

pdf_path = 
"CybergyHoldingsInc_Affliate Agreement.pdf"

results = 
await
 parser.aparse(pdf_path)

文档分类

在从合同中提取相关信息之前，需要确定处理的合同类型。不同类型的合同具有不同的条款结构和法律信息，因此需要合同类型来动态选择适当的提取模式。

python
openai_client = AsyncOpenAI(api_key=openai_api_key)

classification_prompt = 
"""您是一个法律文档分类助手。
您的任务是基于合同前10页的内容识别最可能的合同类型。
指令：
阅读下面的合同摘录。
审查可能的合同类型列表。
从列表中选择最合适的单一合同类型。
仅基于摘录中的信息简要说明您的分类。
"""

使用LlamaExtract进行信息提取

LlamaExtract是一个云服务，使用基于AI的模式提取将非结构化文档转换为结构化数据。

在这里插入图片描述

模式定义

定义两个Pydantic模型：Location捕获结构化地址信息，Party表示合同当事人：

python
classLocation(BaseModel):

"""具有结构化地址组件的位置信息。"""

    country: 
Optional
[
str
] = Field(
None
, description=
"国家"
)

    state: 
Optional
[
str
] = Field(
None
, description=
"州或省"
)

    address: 
Optional
[
str
] = Field(
None
, description=
"街道地址或城市"
)

classParty(BaseModel):

"""具有名称和位置的当事人信息。"""

    name: 
str
 = Field(description=
"当事人名称"
)

    location: 
Optional
[Location] = Field(
None
, description=
"当事人位置详情"
)

合同类型特定模式

由于有多种合同类型，需要为每种类型定义特定的提取模式，并创建映射系统根据分类结果动态选择适当的模式：

python
classBaseContract(BaseModel):

"""具有通用字段的基础合同类。"""

    parties: 
Optional
[
List
[Party]] = Field(
None
, description=
"所有合同当事人"
)

    agreement_date: 
Optional
[
str
] = Field(
None
, description=
"合同签署日期。使用YYYY-MM-DD格式"
)

    effective_date: 
Optional
[
str
] = Field(
None
, description=
"合同生效日期。使用YYYY-MM-DD格式"
)

    expiration_date: 
Optional
[
str
] = Field(
None
, description=
"合同到期日期。使用YYYY-MM-DD格式"
)

    governing_law: 
Optional
[
str
] = Field(
None
, description=
"管辖法律"
)

# ... 其他字段

classAffiliateAgreement(BaseContract):

"""关联协议提取"""

    exclusivity: 
Optional
[
str
] = Field(
None
, description=
"独占地域或市场权利"
)

    non_compete: 
Optional
[
str
] = Field(
None
, description=
"竞业限制"
)

    revenue_profit_sharing: 
Optional
[
str
] = Field(
None
, description=
"佣金或收入分成"
)

# ... 其他字段

构建知识图谱

最后一步是获取提取的结构化信息并构建表示合同实体之间关系的知识图谱。需要定义一个图模型，指定合同数据应如何在Neo4j中组织为节点和关系。

图模型设计

图模型包含三种主要节点类型：

Contract节点

：存储核心协议信息，包括日期、条款和法律条款
Party节点

：代表合同实体及其名称
Location节点

：捕获带有地址组件的地理信息

数据导入

将提取的合同数据按照定义的图模型导入Neo4j：

python
import_query = 
"""WITH $contract AS contract
MERGE (c:Contract {path: $path})
SET c += apoc.map.clean(contract, ["parties", "agreement_date", "effective_date", "expiration_date"], [])
// 转换为日期格式
SET c.agreement_date = date(contract.agreement_date),
    c.effective_date = date(contract.effective_date),
    c.expiration_date = date(contract.expiration_date)
// 创建当事人及其位置
WITH c, contract
UNWIND coalesce(contract.parties, []) AS party
MERGE (p:Party {name: party.name})
MERGE (c)-[:HAS_PARTY]->(p)
// 创建位置节点并链接到当事人
WITH p, party
WHERE party.location IS NOT NULL
MERGE (p)-[:HAS_LOCATION]->(l:Location)
SET l += party.location
"""

集成工作流

最后，可以将所有这些逻辑组合到一个可执行的代理工作流中。工作流设计简单，允许使用单个命令处理任何文档：

python
knowledge_graph_builder = KnowledgeGraphBuilder(

    parser=parser,

    affiliate_extract_agent=affiliage_extraction_agent,

    branding_extract_agent=cobranding_extraction_agent,

    classification_prompt=classification_prompt,

    timeout=
None
,

    verbose=
True
,

)

response = 
await
 knowledge_graph_builder.run(

    pdf_path=
"CybergyHoldingsInc_Affliate Agreement.pdf"

)