法律文书生成大模型使用说明
数据集构建
本项目数据主要分为两个部分:1.律师和用户之间的情景对话 2.对特定法律知识的问答
数据类型 | 描述 | 数量 | 占比(%) | |
情景对话 | 真实的律师用户问答 | 200k | 60 | |
知识问答 |
| 9k | 40 | |
总计 | - | 200k | 100 |
情景对话
真实的中文律师用户问答数据,来自CirmeKgAssitant收集的200k条情景对话数据。
利用ChatGPT根据CrimeKgAssitant的问答重新生成,使得生成的回答比原回答更详细,语言组织更规范。最终得到52k单轮问答。
根据中华人民共和国法律手册上最核心的9k法律条文,利用ChatGPT联想生成具体的情景问答,从而使得生成的数据集有具体的法律依据。
知识问答
收集法律领域的教科书,经典案例等数据,自建一个法律专业知识数据库。
针对Self-Instruct的可靠性和安全性漏洞,我们使用了基于特定知识的Reliable-Self-Instruction:通过提供具体的法律知识文本,先让ChatGPT生成与该段法律知识内容与逻辑关系相关的若干问题,再通过“文本段-问题”对的方式让ChatGPT回答问题,从而使ChatGPT能够生成含有法律信息的回答,保证回答的准确性。
其中,计划法律知识数据包含民法商法、行政法、经济法、社会法、刑法等各个细分法律的条例,分析和题库。
利用中国司法考试的相关数据和资源,构建与司法考试相关的数据集。
这有助于模型更好地理解法律考试中的问题和答题技巧,提升其在法律领域的应用能力。
模型训练
训练步骤
内部测试模型:
在训练初期,可以使用如LaWGPT-7B-alpha这样的内部测试模型进行初步训练。
这个模型可能在Chinese-LLaMA-7B的基础上直接构造,并使用30万法律问答数据集进行指令精调。
其中的步骤包括以下几点:
下载训练数据集
配置好train_lora.py参数
运行train_lora.py函数(使用模型并行算法,请勿同时使用数据并行)
公开发布模型:
经过初步训练后,公开发布更为完善的模型,如Legal-Base-7B和LaWGPT-7B-beta系列模型。
这些模型在训练过程中,可能会使用到50万中文裁判文书数据、基于Chinese-LLaMA-7B模型的二次预训练以及基于更大规模的高质量法律问答数据集的指令精调。
情景对话训练的特殊性
- 法律语境的深入理解:
- 情景对话训练需要模型深入理解法律语境和术语,以便能够准确回答用户的问题。
- 这需要模型在训练过程中充分暴露于各种法律场景和对话中,以提升其语境理解能力。
- 对话逻辑的准确把握:
- 情景对话通常具有复杂的逻辑结构和多轮交互的特点。
- 在训练过程中,需要特别注意模型对对话逻辑的把握能力,以确保其能够正确理解用户的意图并给出准确的回答。