传神社区|数据集合集第6期|法律NLP数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。

传神社区(Opencsg)旨在收集和整理与中文NLP相关的开源数据集。目前每篇文章整理的资源至少15个!如果本篇文章对您有帮助,欢迎点赞与收藏~

我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!

目录

1. 法律判决预测

      • 1.1 瑞士法院判决数据集

      • 1.2 欧盟法院判决数据集-2019

      • 1.3 欧盟法院判决数据集-2021

        1.4 中国法院判决数据集

  • 2. 法律文本分类

    3.1 比利时法定条款检索数据集

    3.2 欧盟指令到英国立法检索数据集

    3.3 英国立法到欧盟指令检索数据集

      • 2.1 希腊立法数据集

      • 2.2 商业法律合同数据集

      • 2.3 欧盟立法数据集

      • 2.4 美国证券交易委员会合同法律条款的多标签语料库

      • 2.5 法律合同检索数据集

      • 2.6 欧洲联盟立法文件数据库

      • 2.7 自动化合同要素提取数据集

      • 2.8 隐私政策数据集

      • 3. 法律信息检索

01 法律判决预测

1.1 瑞士法院判决数据集

FSCS:

简介:Swiss-Judgment-Prediction是一个包含85 K个瑞士联邦最高法院(FSCS)案例的多语言、历时数据集,其中注释了相应的二进制判决结果(批准/驳回),这是一个具有挑战性的文本分类任务。我们还提供额外的元数据,即,每个案件的出版年份、法律的领域和起源州,以促进对法律的NLP关键领域的稳健性和公平性研究。

地址:https://www.opencsg.com/datasets/MagicAI/FSCS

图片

1.2 欧盟法院判决数据集-2019

ECHR :

简介:法律的判决预测是在给定描述案件事实的文本的情况下自动预测法庭案件的结果的任务。以前使用神经模型进行这项任务的工作主要集中在中文上;只有基于特征的模型(例如,使用词袋和主题)已经被考虑在英语中。我们发布了一个新的英语法律的判决预测数据集,包含来自欧洲人权法院的案件。

地址:https://www.opencsg.com/datasets/MagicAI/ECHR

1.3 欧盟法院判决数据集-2021

ECtHR:

简介:我们的数据集包括11k个ECtHR案例,可以被视为Chalkaline et al.(2019)的ECtHR数据集的丰富版本,该数据集没有为所谓的文章违规(讨论的文章)和理由提供基本事实。

地址:https://opencsg.com/datasets/MagicAI/ECtHR

图片

1.4 中国法院判决数据集

CAIL:

简介:中国人工智能与法律挑战赛数据集(CAIL2018),这是首个用于判决预测的大规模中文法律数据集。CAIL2018包含了由中国最高人民法院发布的超过260万起刑事案件,其规模远超现有判决预测工作中所使用的其他数据集。此外,该数据集对判决结果的标注更为详细和丰富,包括适用的法律条款、指控罪名以及刑期,这些都需要根据案件的事实描述进行推断。

地址:https://opencsg.com/datasets/MagicAI/CAIL

图片

02 法律文本分类

2.1 希腊立法数据集

GLC :

简介:GLC是一个数据集,由大约47 k希腊立法的法律的资源。GLC的起源是“永久希腊立法法典- Raptarchis”,这是一个希腊立法文件的集合,分为多层次(从更广泛到更专业)类别。

地址:https://opencsg.com/datasets/MagicAI/GLC

图片

2.2 商业法律合同数据集

CUAD:

简介:Contract Understanding Atticus Dataset(CUAD)v1是一个包含510份商业法律的合同中的13,000多个标签的语料库,这些标签已被手动标记,以识别律师在审查与公司交易有关的合同时所寻找的41类重要条款。

地址:https://www.opencsg.com/datasets/MagicAI/CUAD

图片

2.3 欧盟立法数据集

MultiEURLEX:

简介:MultiEURLEX包含23种欧盟官方语言的65,000条欧盟法律。欧盟的每一项法律都由欧盟出版办公室用EUROVOC概念(标签)加以注释。每个EUROVOC标签ID与标签描述符相关联,例如,[60,农业食品],[6006,植物产品],[1115,水果]。描述符也有23种语言版本。Chalkaline et al.(2019)发布了该数据集的单语(英语)版本,称为EUR-LEX,包括57 k条欧盟法律,以及最初分配的黄金标签。

地址:https://www.opencsg.com/datasets/MagicAI/MultiEURLEX

图片

2.4 美国证券交易委员会合同法律条款的多标签语料库

LEDGAR:

简介:LEDGAR是一个包含合同法律条款的多标签语料库,它是从公共领域(美国证券交易委员会提交的文件)中抓取和整理的,据我们所知,这是同类中首个免费可用的语料库。由于该语料库是半自动构建的,我们采用了并讨论了多种去噪方法。由于该语料库包含超过60,000份合同中的近100,000个条款,并且标注了超过12,000个标签,我们认为它对于法律自然语言处理(Legal NLP)、大规模或极端文本分类以及法律研究等领域的研究都具有重要意义。

地址:https://www.opencsg.com/datasets/MagicAI/LEDGAR

2.5 法律合同检索数据集

LegalContractDiscoveryDataset :

简介:LegalContractDiscovery Dataset,一个专门用于评估合同发现任务的数据集。该数据集包含了一系列法律文档,每个文档中都标记了多个法律条款的位置和类别。此外,数据集还提供了用于训练和评估模型的示例条款集,这些示例条款来自不同的法律文书,与待提取条款具有相似的语义或结构特征。

地址:https://www.opencsg.com/datasets/MagicAI/LegalContractDiscoveryDataset

图片

2.6 欧洲联盟立法文件数据库

EURLEX-57K:

简介:包含57,000份立法文件,每份文件被标注了约4,300个EUROVOC标签中的一个或多个。

地址:https://www.opencsg.com/datasets/MagicAI/EURLEX-57K

图片

2.7 自动化合同要素提取数据集

Contract Element Extraction Datasets:

简介:本研究旨在探索并自动化合同要素提取的过程,这对于法律、金融和商业等多个领域都具有重要意义。通过自动化提取合同中的关键要素(如合同类型、双方信息、违约责任等),可以显著提高合同审查的效率,减少人为错误,并为后续的合同分析和风险评估提供基础数据支持。

地址:https://www.opencsg.com/datasets/MagicAI/ContractElementExtractionDatasets

2.8 隐私政策数据集

OPP-115:

简介:我们推出了一个包含115份隐私政策文档(总词数约为267,000词)的数据集,并对其中23,000个细粒度的数据实践行为进行了人工标注。该数据集旨在支持研究人员开发自然语言处理和机器学习模型,以自动化或半自动化地分析和理解隐私政策内容。

地址:https://www.opencsg.com/datasets/MagicAI/OPP-115

图片

03 法律信息检索

3.1 比利时法定条款检索数据集

BSARD:

简介:比利时法定条款检索数据集(BSARD)是一个专为研究法律信息检索领域设计的法语原生数据集。该数据集旨在促进对法律文本检索、理解及问答系统的研究和开发,特别是针对比利时法律体系下的法律条文和实际问题。通过提供丰富的法律条文和真实用户问题,BSARD为研究人员提供了一个评估和改进法律信息检索技术的平台。

地址:https://www.opencsg.com/datasets/MagicAI/BSARD

图片

3.2 欧盟指令到英国立法检索数据集

EU2UK:

简介:企业历史上的重大丑闻促使人们迫切需要遵守法规,组织需要确保其控制(流程)符合相关法律、法规和政策。然而,跟踪不断变化的立法是困难的,因此组织越来越多地采用监管技术(RegTech)来促进这一过程。为此,我们引入监管信息检索(REG-IR),文档到文档信息检索(DOC 2DOC IR)的应用程序,其中查询是一个完整的文件,使任务更具挑战性,比传统的IR的查询是短的。此外,我们根据欧盟指令和英国立法之间的关系编制并发布了两个数据集。

地址:https://www.opencsg.com/datasets/MagicAI/EU2UK

图片

3.3 英国立法到欧盟指令检索数据集

UK2EU:

简介:企业历史上的重大丑闻促使人们迫切需要遵守法规,组织需要确保其控制(流程)符合相关法律、法规和政策。然而,跟踪不断变化的立法是困难的,因此组织越来越多地采用监管技术(RegTech)来促进这一过程。为此,我们引入监管信息检索(REG-IR),文档到文档信息检索(DOC 2DOC IR)的应用程序,其中查询是一个完整的文件,使任务更具挑战性,比传统的IR的查询是短的。此外,我们根据欧盟指令和英国立法之间的关系编制并发布了两个数据集。

地址:https://www.opencsg.com/datasets/MagicAI/UK2EU

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手

  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值