法律文书数据集构建

 收集数据集的动机:

      为了构建一个高效且准确的法律大模型,特别是用于自动生成法律文书,我们需要收集和整理一个全面的法律数据集。这样的数据集将包括各类法律文书的判决书如判决书。

      我们入分析这些文书的结构、用语和逻辑,训练模型学习如何准确地模拟法律专业人士的思维和写作风格。

      此外,我们的目标是:使模型能够在生成判决文书时,不仅仅是模拟法律文书的格式和语言风格,而是更深层次地理解和引用相应的法律依据。通过对这些数据的综合学习,模型将能够做出既符合现有法律条文,又适应具体案例情境的判决。此外,这种数据驱动的方法将极大提升模型在法律预测和应用中的准确性,从而提供更为专业和精确的法律服务,支持法律决策过程,增强法律系统的效率和公正性。

数据集来源:

中国裁判文书网:https://wenshu.court.gov.cn

构造方法:

见本目录下法律文书自构建数据集样例和法律文书样例

样例文书中红色框部分为开庭信息部分,计划不通过大模型生成,在应用层面设置方法,接收用户输入后直接输入

样例文书蓝色框部分为案情事实,经过我们对多份案件判决书的观察,“经法庭审理查明”后的一段话,能够以最简单直接的方式,概括案情,因此我们选用该部分作为数据集instruction部分; 并非“某某人民检察院控告:”或其他;

样例文书绿色框部分,即判决结果部分(“本院认为:” 之后),作为数据集output

在训练的过程中我们发现:如果数据集偏向某一地区或某类案件,模型可能会学习到偏颇的法律判断,这会影响模型的公正性和准确性。通过平衡数据集中的案件类型和地区分布,可以减少这种偏差,使得模型的输出更加均衡和公正。

为了提升数据多样性与全面性,提高模型泛化能力,降低训练损失。我们决定选取全国各个地区(江苏,安徽,陕西,山西,浙江,上海,山东,河南)每个地区七十条一审刑事判决书的犯罪事实和判决结果。

  • 11
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值