收集数据集的动机:
为了构建一个高效且准确的法律大模型,特别是用于自动生成法律文书,我们需要收集和整理一个全面的法律数据集。这样的数据集将包括各类法律文书的判决书如判决书。
我们入分析这些文书的结构、用语和逻辑,训练模型学习如何准确地模拟法律专业人士的思维和写作风格。
此外,我们的目标是:使模型能够在生成判决文书时,不仅仅是模拟法律文书的格式和语言风格,而是更深层次地理解和引用相应的法律依据。通过对这些数据的综合学习,模型将能够做出既符合现有法律条文,又适应具体案例情境的判决。此外,这种数据驱动的方法将极大提升模型在法律预测和应用中的准确性,从而提供更为专业和精确的法律服务,支持法律决策过程,增强法律系统的效率和公正性。
数据集来源:
中国裁判文书网:https://wenshu.court.gov.cn
构造方法:
见本目录下法律文书自构建数据集样例和法律文书样例
样例文书中红色框部分为开庭信息部分,计划不通过大模型生成,在应用层面设置方法,接收用户输入后直接输入
样例文书蓝色框部分为案情事实,经过我们对多份案件判决书的观察,“经法庭审理查明”后的一段话,能够以最简单直接的方式,概括案情,因此我们选用该部分作为数据集instruction部分; 并非“某某人民检察院控告:”或其他;
样例文书绿色框部分,即判决结果部分(“本院认为:” 之后),作为数据集output
在训练的过程中我们发现:如果数据集偏向某一地区或某类案件,模型可能会学习到偏颇的法律判断,这会影响模型的公正性和准确性。通过平衡数据集中的案件类型和地区分布,可以减少这种偏差,使得模型的输出更加均衡和公正。
为了提升数据多样性与全面性,提高模型泛化能力,降低训练损失。我们决定选取全国各个地区(江苏,安徽,陕西,山西,浙江,上海,山东,河南)每个地区七十条一审刑事判决书的犯罪事实和判决结果。