法律文书生成大模型使用说明
数据集构建
本项目数据主要分为两个部分:1.律师和用户之间的情景对话 2.对特定法律知识的问答
数据类型 | 描述 | 数量 | 占比(%) | |
情景对话 | 真实的律师用户问答 | 200k | 60 | |
知识问答 |
|
9k | 40 | |
总计 | - | 200k | 100 |
情景对话
真实的中文律师用户问答数据,来自CirmeKgAssitant收集的200k条情景对话数据。
利用ChatGPT根据CrimeKgAssitant的问答重新生成,使得生成的回答比原回答更详细,语言组织更规范。最终得到52k单轮问答。
根据中华人民共和国法律手册上最核心的9k法律条文,利用ChatGPT联想生成具体的情景问答,从而使得生成的数据集有具体的法律依据。
知识问答
收集法律领域的教科书,经典案例等数据,自建一个法律专业知识数据库。
针对Self-Instruct的可靠性和安全性漏洞,我们使用了基于特定知识的Reliable-