文章目录
1. 司法判决预测
中文:
- CAIL2018
刑法
2. 通用语料
多语言:
- MultiLegalPile
- LexFiles
西班牙语:
- Spanish Legal Domain Corpora
英语:
- CaseHOLD
English Harvard Law case corpus (1965-2021) - Pile of Law
- (跨国)LeXFiles and LegalLAMA
- 原始论文:(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
- LeXFiles是一组语料,LegalLAMA则是用以评估模型效果的benchmark(参考的是LAMA)
- 已放到transformers上:
from datasets import load_dataset dataset = load_dataset('lexlms/lex_files', name='eu-legislation') from datasets import load_dataset dataset = load_dataset('lexlms/legal_lama', name='contract_sections')
中文:
- 华律网法律咨询数据及论文所需语料库;同时发表的论文:法律咨询文本分类系统设计与研究
The legal consultation data and corpus of the thesis from China law network.Replication Data for: Design and research of legal consultation text classification system. - Data Driven Innovation Research Competition for University of China
葡萄牙语:
3. 其他集成项目
多语言:
- LexGLUE
coastalcph/lex-glue: LexGLUE: A Benchmark Dataset for Legal Language Understanding in English - LEXTREME
还没整理完的:
4. 推理
- legalbench
英语:
- SARA:大概来说就是推理某种情况是否适用于某某法律(美国税法中的9个Section)
5. NLU
- SemEval 2023 Task 6: LegalEval - Understanding Legal Texts
- 任务:Rhetorical Roles Labeling,命名实体识别,可解释的司法判决预测
- MAUD
6. NLG
1 QA
中文:
- JEC-QA
法考数据集
https://jecqa.thunlp.org/- 原始论文:(2020 AAAI) JEC-QA: A Legal-Domain Question Answering Dataset
越南语
- (交通法)(2017 KSE) Question analysis for Vietnamese legal question answering
2 文本摘要
英文:
- BillSum
- VebCL(基于案例引用图实现一句话摘要/抽取重点信息)
多语言:
- EUR-Lex-Sum(24种欧洲官方语言)
原始论文:(2022 EMNLP) EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain
数据下载地址:dennlinger/eur-lex-sum · Datasets at Hugging Face - Multi-LexSum
原始论文:(2022) Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities
数据集官网:https://multilexsum.github.io/
7. 信息抽取
1 命名实体识别
葡萄牙语(巴西):
- CDJUR-BR
2 句子边界检测(分句)
多语言:
- MultiLegalSBD(英语、西班牙语、德语、意大利语、葡萄牙语、法语)
3 论据挖掘
- 英语
- mining-legal-arguments
4. 事件抽取
- 中文
- DLEE
- 原始论文:(2024 Neural Computing and Applications) DLEE: a dataset for Chinese document-level legal event extraction
- DLEE
8. 智能合同审查
- 英语
9. 其他任务
结构化:
- DiscoveringTheRationaleOfDecisions(用于抽取判决结果中的rationale。具体干啥的其实我还没看)
- GENTLE(英语域外评估,包括了法律文书)
10. 公平性
多语言: