CAIL 2023 类案检索赛道
任务介绍
该赛道由清华大学互联网司法研究院和航天国政信息技术(北京)有限公司承办。
类案检索作为人工智能支持司法审判的重要内容,对于提升法院整体裁判水平、实现类案适法统一、促进司法公正有极其重要的积极意义。本赛道面向刑事类案搜索,具体任务为:给定若干查询案例,每一个查询案例要求从候选案例池中筛选出与查询案例相关的类案。每个查询案例最终的提交形式为TOP30候选案例的排序,类案相似程度划分为四级,越相似的案例应当排名越靠前。
数据介绍
本次类案检索任务训练集以及初赛测试集使用中国刑事类案检索数据集LeCaRDv2,包含800个查询案例和总数为55192的候选案例池。LeCaRDv2的所有案例文件均为公开的中国刑事案件判决书;复赛阶段、封闭评测阶段将使用不公开的数据进行评测,数据结构、数据类型与LeCaRDv2类似。
评价方式
本任务评价标注采用NDCG@30(Normalized Discounted Cumulative Gain),返回候选案例为按相关性排序后结果列表的前30位。
基线模型
本任务暂不提供基线系统。
CAIL 2022:类案检索
该任务为面向中国刑事案件的类案检索。具体地,给定若干个查询案例(query),每一个查询案例各自对应一个大小为100的候选案例(candidate)池,要求从候选案例池中筛选出与查询案例相关的类案。
类案相似程度划分为四级(从最相关:3 到完全不相关:0)。每个查询案例最终的提交形式为对应的100个候选案例的排序列表,预测越相似的案例排名越靠前。
本任务所使用的数据集来自于裁判文书网公开的裁判文书。其中初赛阶段全部数据、复赛阶段训练集、封测阶段训练集均使用公开的中文类案检索数据集LeCaRD。以初赛阶段测试数据集为例,文件结构如下:
解释
input ├── candidates │ ├── 111 │ ├── 222 │ ├── 333 │ ├── 444 │ └── 555 └── query.json 6 directories, 1 file
其中,input是输入文件根目录,包含了两个部分:query.json
和candidates/
。如果是训练集,在根目录下还会有一个label文件:label_top30_dict.json
。query.json
包括了该阶段所有的query,每个query均以字典格式进行存储。下面是一个query的示例:
{"path": "ba1a0b37-3271-487a-a00e-e16abdca7d83/005da2e9359b1d71ae503d98fba4d3f31b1.json", "ridx": 1325, "q": "2016年12月15日12时许,被害人郑某在台江区交通路工商银行自助ATM取款机上取款后,离开时忘记将遗留在ATM机中的其所有的卡号为62×××73的银行卡取走。后被告人江忠取钱时发现该卡处于已输入密码的交易状态下,遂分三笔取走卡内存款合计人民币(币种,下同)6500元。案发后,被告人江忠返还被害人郑某6500元并取得谅解。", "crime": ["诈骗罪", "信用卡诈骗罪"]}
query的各个字段含义如下:
- path:查询案例对应的判决书在原始数据集中的位置(在本次比赛中不重要,可以忽略)
- ridx:每个查询案例唯一的ID
- q:查询案例的内容(只包含案情描述部分)
- crime:查询案例涉及的罪名
candidates/
下有若干个子文件夹,每个子文件夹包含了一个query的全部100个candidates;子文件夹名称对应了其所属query的ridx。这100个candidate分别以字典的格式单独存储在json文件中,下面是一个candidate的示例:
{"ajId":"dee49560-26b8-441b-81a0-6ea9696e92a8","ajName":"程某某走私、贩卖、运输、制造毒品一案","ajjbqk":" 公诉机关指控,2018年3月1日下午3时许,被告人程某某在本市东西湖区某某路某某工业园某某宾馆门口以人民币300元的价格向吸毒人员张某贩卖毒品甲基苯丙胺片剂5颗......","pjjg":" 一、被告人程某某犯贩卖毒品罪,判处有期徒刑十个月......","qw":"湖北省武汉市东西湖区人民法院 刑事判决书 (2018)鄂0112刑初298号 公诉机关武汉市东西湖区人民检察院。 被告人程某某......","writId": "0198ec7627d2c78f51e5e7e3862b6c19e42", "writName": "程某某走私、贩卖、运输、制造毒品一审刑事判决书"}
candidate的各个字段含义如下:
- ajId:候选案例的ID(可忽略)
- ajName:案例的名称
- ajjbqk:案件基本情况
- cpfxgc:裁判分析过程
- pjjg:法院的判决结果
- qw:判决书的全文内容
- writID:判决书的ID(可忽略)
- writName是判决书的名称(可忽略)
CAIL 2021类案检索
该任务为面向中国刑事案件的类案检索。具体地,给定若干个查询案例(query),每一个查询案例各自对应一个大小为100的候选案例(candidate)池,要求从候选案例池中筛选出与查询案例相关的类案。类案相似程度划分为四级(从最相关:3 到完全不相关:0),判定标准详见类案标注文档。每个查询案例最终的提交形式为对应的100个候选案例的排序列表,预测越相似的案例排名越靠前。
本任务所使用的数据集来自于裁判文书网公开的裁判文书。其中初赛阶段全部数据、复赛阶段训练集、封测阶段训练集均使用公开的中文类案检索数据集LeCaRD。以初赛阶段测试数据集为例,文件结构如下:
解释
类案检索 ├── candidates │ ├── 111 │ ├── 222 │ ├── 333 │ ├── 444 │ └── 555 └── query.json 6 directories, 1 file
其中,类案检索是输入文件根目录,包含了两个部分:query.json
和candidates/
。如果是训练集,在根目录下还会有一个label文件:label_top30_dict.json
。 query.json
包括了该阶段所有的query,每个query均以字典格式进行存储。下面是一个query的示例:{"path": "ba1a0b37-3271-487a-a00e-e16abdca7d83/005da2e9359b1d71ae503d98fba4d3f31b1.json", "ridx": 1325, "q": "2016年12月15日12时许,被害人郑某在台江区交通路工商银行自助ATM取款机上取款后,离开时忘记将遗留在ATM机中的其所有的卡号为62×××73的银行卡取走。后被告人江忠取钱时发现该卡处于已输入密码的交易状态下,遂分三笔取走卡内存款合计人民币(币种,下同)6500元。案发后,被告人江忠返还被害人郑某6500元并取得谅解。", "crime": ["诈骗罪", "信用卡诈骗罪"]}
query的各个字段含义如下:
path
:查询案例对应的判决书在原始数据集中的位置(在本次比赛中不重要,可以忽略)ridx
:每个查询案例唯一的IDq
:查询案例的内容(只包含案情描述部分)crime
:查询案例涉及的罪名
candidates/
下有若干个子文件夹,每个子文件夹包含了一个query的全部100个candidates;子文件夹名称对应了其所属query的ridx。
这100个candidate分别以字典的格式单独存储在json文件中,下面是一个candidate的示例:{"ajId":"dee49560-26b8-441b-81a0-6ea9696e92a8","ajName":"程某某走私、贩卖、运输、制造毒品一案","ajjbqk":" 公诉机关指控,2018年3月1日下午3时许,被告人程某某在本市东西湖区某某路某某工业园某某宾馆门口以人民币300元的价格向吸毒人员张某贩卖毒品甲基苯丙胺片剂5颗......","pjjg":" 一、被告人程某某犯贩卖毒品罪,判处有期徒刑十个月......","qw":"湖北省武汉市东西湖区人民法院 刑事判决书 (2018)鄂0112刑初298号 公诉机关武汉市东西湖区人民检察院。 被告人程某某......","writId": "0198ec7627d2c78f51e5e7e3862b6c19e42", "writName": "程某某走私、贩卖、运输、制造毒品一审刑事判决书"}
candidate的各个字段含义如下:
ajId
:候选案例的ID(可忽略)ajName
:案例的名称ajjbqk
:案件基本情况cpfxgc
:裁判分析过程pjjg
:法院的判决结果qw
:判决书的全文内容writID
:判决书的ID(可忽略)writName
:判决书的名称(可忽略)
一些注意事项:
- 查询案例的ID(ridx)可能为正整数(例如1325)或者负整数(例如-991),但是本次比赛中并不加以区分,只需要看作唯一对应的ID序号,其数值不具有任何含义。
- 根据组委会要求,初赛阶段仅使用25%的LeCaRD数据作为训练集和测试集;复赛阶段将使用LeCaRD全集作为训练接;复赛阶段和封闭评测阶段都将使用不公开的数据进行评测,但是数据结构、数据类型与前两个阶段保持一致。
- LeCaRD数据集的论文原文。如果您在CAIL评测中或者评测后引用LeCaRD数据集发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了LeCaRD数据集”,并按如下格式引用: