北大开源ChatLaw：法律大模型MoE+RAG+图谱+多agent方案，提高准确性和效率，减少幻觉

本文链接：https://blog.csdn.net/Code1994/article/details/144530853

在这里插入图片描述

# 数据集、代码和部署细节已在GitHub仓库中发布：
github.com/PKU-YuanGroup/ChatLaw

摘要

基于大型语言模型（LLMs）的法律助手能够提供便捷的法律咨询服务，但幻觉问题可能带来潜在的法律风险。本文介绍了Chatlaw，这是一种创新的法律助手，利用专家混合（MoE）模型和多智能体系统来提高AI驱动的法律服务的可靠性和准确性。通过将知识图谱与人工筛选相结合，我们构建了高质量的法律数据集来训练MoE模型。此模型利用不同的专家来解决各种法律问题，从而优化法律回应的准确性。另外，模仿真实律师事务所工作流程的标准作业程序（SOP）显著减少了法律服务中的错误和幻觉。我们的MoE模型在法律考试和法律专业统一资格考试中的表现优于GPT-4，展示了我们在法律咨询方面的强大能力。

增强数据集收集以覆盖全面的法律任务

为了应对现有法律数据集的缺陷，我们设计并实施了一套全面的法律数据收集和处理工作流程，成功构建了高质量的Chatlaw法律数据集。最初，我们从多个来源收集数据，并使用自动化工具进行去重和去噪处理以获得标准化的法律问答数据集。在此基础上，我们邀请法学院学生进行案件分类，并由领域专家对问题关系和节点连接进行精确定义，形成高度针对性的知识图谱和agent任务数据集。

整个数据集涉及10个大类和44个小类，总计约400万条数据样本，涵盖广泛的法律领域，包括但不限于，案件分类、法规预测、法律文书起草和子案件分割。此外，还包含公共舆论分析、命名实体识别和法律咨询等专业任务。这一多样性确保了我们的数据集能解决法律处理的各个方面，从基本的文档理解到复杂的法律推理和论证。

构建和训练MoE模型

我们的模型基于MoE Transformer架构，包含多个堆叠的MSA（多尺度注意力）模块、MoE机制和LN（层正则化）结构，并以线性分类头CLS结束。在训练阶段，我们使用自回归损失函数优化MoE模型。对于层编码，我们通过生成文本P的CLS头对输入进行变换处理。

LawBench上的性能

我们首先在LawBench上进行了测试，LawBench是一个基于中国法律系统的综合评估基准。LawBench主要涵盖三个认知层次：1）法律知识记忆：测试记忆必要法律概念、术语、条款和事实的能力；2）法律知识理解：评估大型语言模型是否能理解并解释法律文本中的实体、事件和关系；3）法律知识应用：评估正确利用并推理其法律知识以解决不同法律任务的能力。

在平均分上，我们的Chatlaw-MoE模型以60.08分显著优于GPT-4的52.35分。这一巨大差距突出表明了我们模型在不同认知层次上的有效性。

法律专业统一资格考试上的性能

另一个基准是中国法律专业统一资格考试，包括单项选择题、多项选择题和不确定选择题。这些问题涵盖各种法律领域并能有效评估大型语言模型对法律概念、原则和条款的理解和应用能力。

在2018年至2022年的法律专业统一考试中，我们的Chatlaw-MoE模型表现出色，成绩分别为113、124、143、115和78，显示出持续优越的表现。相比之下，GPT-4的得分分别为102、108、82、82和118。这一规律性的优越表现凸显了Chatlaw-MoE增强的处理法律考试题目的能力，这可能是由于其多专家系统设计，能够基于输入特征动态选择最合适的专家进行处理。

这些结果清晰地表明，Chatlaw-MoE在法律任务性能上不仅超越了专用法律模型，而且在与通用语言模型的对比中也表现优异，确立了其作为法律任务执行首选模型的地位。

Chatlaw多智能体协作框架提升法律服务可靠性

Chatlaw 包含一个基于LLM的多智能体协作系统，通过角色专门化和agent工作流模拟真实的律师咨询过程。明确的角色专门化能够将复杂工作分解为更小、更具体的任务，加速不同专业的代理相互协作。我们在我们的虚拟法律事务所中定义了四个角色：法律助理、法律研究员、法律合规、法律编辑，并指定每个角色的简档，例如角色认知、约束以及相应的知识模板和技能。

如图1©所示，代理协作工作流遵循一个顺序SOP：1）法律助理分析咨询内容并选择相应的法律知识图谱，然后询问用户问题以填充图谱节点，直到获得必要的信息；2）法律研究员基于关键信息在互联网搜索，找到相关法律条款，并根据类别分类案件以获取类似案件；3）高级律师分析相关案件并提供法律建议；4）法律编辑总结意见并起草正式法律文件，如合同，以满足用户需求。