# 数据集、代码和部署细节已在GitHub仓库中发布:``github.com/PKU-YuanGroup/ChatLaw
摘要
基于大型语言模型(LLMs)的法律助手能够提供便捷的法律咨询服务,但幻觉问题可能带来潜在的法律风险。本文介绍了Chatlaw,这是一种创新的法律助手,利用专家混合(MoE)模型和多智能体系统来提高AI驱动的法律服务的可靠性和准确性。通过将知识图谱与人工筛选相结合,我们构建了高质量的法律数据集来训练MoE模型。此模型利用不同的专家来解决各种法律问题,从而优化法律回应的准确性。另外,模仿真实律师事务所工作流程的标准作业程序(SOP)显著减少了法律服务中的错误和幻觉。我们的MoE模型在法律考试和法律专业统一资格考试中的表现优于GPT-4,展示了我们在法律咨询方面的强大能力。
增强数据集收集以覆盖全面的法律任务
为了应对现有法律数据集的缺陷,我们设计并实施了一套全面的法律数据收集和处理工作流程,成功构建了高质量的Chatlaw法律数据集。最初,我们从多个来源收集数据,并使用自动化工具进行去重和去噪处理以获得标准化的法律问答数据集。在此基础上,我们邀请法学院学生进行案件分类,并由领域专家对问题关系和节点连接进行精确定义,形成高度针对性的知识图谱和agent任务数据集。
整个数据集涉及10个大类和44个小类,总计约400万条数据样本,涵盖广泛的法律领域,包括但不限于,案件分类、法规预测、法律文书起草和子案件分割。此外,还包含公共舆论分析、命名实体识别和法律咨询等专业任务。这一多样性确保了我们的数据集能解决法律处理的各个方面,从基本的文档理解到复杂的法律推理和论证。
构建和训练MoE模型
我们的模型基于MoE Transformer架构,包含多个堆叠的MSA(多尺度注意力)模块、MoE机制和LN(层正则化)结构,并以线性分类头CLS结束。在训练阶段,我们使用自回归损失函数优化MoE模型。对于层编码,我们通过生成文本P的CLS头对输入进行变换处理。
LawBench上的性能
我们首先在LawBench上进行了测试,LawBench是一个基于中国法律系统的综合评估基准。LawBench主要涵盖三个认知层次:1)法律知识记忆:测试记忆必要法律概念、术语、条款和事实的能力;2)法律知识理解:评估大型语言模型是否能理解并解释法律文本中的实体、事件和关系;3)法律知识应用:评估正确利用并推理其法律知识以解决不同法律任务的能力。
在平均分上,我们的Chatlaw-MoE模型以60.08分显著优于GPT-4的52.35分。这一巨大差距突出表明了我们模型在不同认知层次上的有效性。
法律专业统一资格考试上的性能
另一个基准是中国法律专业统一资格考试,包括单项选择题、多项选择题和不确定选择题。这些问题涵盖各种法律领域并能有效评估大型语言模型对法律概念、原则和条款的理解和应用能力。
在2018年至2022年的法律专业统一考试中,我们的Chatlaw-MoE模型表现出色,成绩分别为113、124、143、115和78,显示出持续优越的表现。相比之下,GPT-4的得分分别为102、108、82、82和118。这一规律性的优越表现凸显了Chatlaw-MoE增强的处理法律考试题目的能力,这可能是由于其多专家系统设计,能够基于输入特征动态选择最合适的专家进行处理。
这些结果清晰地表明,Chatlaw-MoE在法律任务性能上不仅超越了专用法律模型,而且在与通用语言模型的对比中也表现优异,确立了其作为法律任务执行首选模型的地位。
Chatlaw多智能体协作框架提升法律服务可靠性
Chatlaw 包含一个基于LLM的多智能体协作系统,通过角色专门化和agent工作流模拟真实的律师咨询过程。明确的角色专门化能够将复杂工作分解为更小、更具体的任务,加速不同专业的代理相互协作。我们在我们的虚拟法律事务所中定义了四个角色:法律助理、法律研究员、法律合规、法律编辑,并指定每个角色的简档,例如角色认知、约束以及相应的知识模板和技能。
如图1©所示,代理协作工作流遵循一个顺序SOP:1)法律助理分析咨询内容并选择相应的法律知识图谱,然后询问用户问题以填充图谱节点,直到获得必要的信息;2)法律研究员基于关键信息在互联网搜索,找到相关法律条款,并根据类别分类案件以获取类似案件;3)高级律师分析相关案件并提供法律建议;4)法律编辑总结意见并起草正式法律文件,如合同,以满足用户需求。
法律助理与知识图谱
在法律专家的指导下,我们将法律咨询的过程抽象为构建专业问题知识图谱的过程。法律助理通过向用户提问,收集关键信息,扩展相应节点,直到形成完整的咨询知识图谱,作为后续过程的基础。
Chatlaw 框架中,法律助理首先根据咨询问题选择合适的预定义实体集群并初步填写信息节点。对于信息不足的节点,整合为新的问题询问用户,引导他们向知识图谱添加更多相关信息。
法律研究员与检索增强生成
法律研究员是一种基于检索增强生成(RAG)的智能体。该智能体接收由法律助理总结的知识图谱作为输入,并从外部知识库收集最新的法律条款和司法解释。利用法律助理建立的知识图谱,我们根据不同的节点关键词联合互联网和领域数据库进行检索。检索到的文档随后被并行处理,LLM评估每个文档与查询的相关性。
律师和法律编辑智能体
在实际用户咨询过程中,接下来的两个步骤涉及提供咨询建议和生成咨询文件,这在Chatlaw中由律师和法律编辑两个智能体实现。律师在咨询阶段处理用户的咨询问题和辅助信息,而编辑则专注于审查律师的文本并将其转换为最终的文档。
真实世界法律咨询表现
为了评估Chatlaw的表现,我们基于真实的司法咨询进行了综合评估,重点关注完整性、正确性、指导性和权威性等标准。Chatlaw在这些标准中始终获得最高的整体分数,特别是在完整性、指导性和权威性方面表现突出。与其他模型相比,Chatlaw在提供高质量法律咨询方面表现出优越的能力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。