法律文书数据集构建

最新推荐文章于 2025-03-14 07:38:32 发布

qmbgk

最新推荐文章于 2025-03-14 07:38:32 发布

阅读量649

点赞数 11

分类专栏：法律数据集文章标签： chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qmbgk/article/details/139306802

版权

法律数据集专栏收录该内容

1 篇文章

订阅专栏

收集数据集的动机：

为了构建一个高效且准确的法律大模型，特别是用于自动生成法律文书，我们需要收集和整理一个全面的法律数据集。这样的数据集将包括各类法律文书的判决书如判决书。

我们入分析这些文书的结构、用语和逻辑，训练模型学习如何准确地模拟法律专业人士的思维和写作风格。

此外，我们的目标是：使模型能够在生成判决文书时，不仅仅是模拟法律文书的格式和语言风格，而是更深层次地理解和引用相应的法律依据。通过对这些数据的综合学习，模型将能够做出既符合现有法律条文，又适应具体案例情境的判决。此外，这种数据驱动的方法将极大提升模型在法律预测和应用中的准确性，从而提供更为专业和精确的法律服务，支持法律决策过程，增强法律系统的效率和公正性。

数据集来源：

中国裁判文书网：https://wenshu.court.gov.cn

构造方法：

见本目录下法律文书自构建数据集样例和法律文书样例

样例文书中红色框部分为开庭信息部分，计划不通过大模型生成，在应用层面设置方法，接收用户输入后直接输入

样例文书蓝色框部分为案情事实，经过我们对多份案件判决书的观察，“经法庭审理查明”后的一段话，能够以最简单直接的方式，概括案情，因此我们选用该部分作为数据集instruction部分; 并非“某某人民检察院控告：”或其他；

样例文书绿色框部分，即判决结果部分（“本院认为：” 之后），作为数据集output

在训练的过程中我们发现：如果数据集偏向某一地区或某类案件，模型可能会学习到偏颇的法律判断，这会影响模型的公正性和准确性。通过平衡数据集中的案件类型和地区分布，可以减少这种偏差，使得模型的输出更加均衡和公正。

为了提升数据多样性与全面性，提高模型泛化能力，降低训练损失。我们决定选取全国各个地区（江苏，安徽，陕西，山西，浙江，上海，山东，河南）每个地区七十条一审刑事判决书的犯罪事实和判决结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。