【数据科学赛】CAIL 2022 #八赛道 #NLP #文本匹配 #信息抽取

最新推荐文章于 2024-04-17 10:01:54 发布

CompHub

最新推荐文章于 2024-04-17 10:01:54 发布

阅读量1k

点赞数 1

文章标签：自然语言处理人工智能

原文链接：http://cail.cipsc.org.cn/task7.html?raceID=7&cail_tag=2022

版权

CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…）比赛。本账号会推送最新的比赛消息，欢迎关注！

更多比赛信息见 CompHub主页或点击文末阅读原文

以下内容摘录自比赛主页

Part1赛题介绍

1题目

CAIL 2022 八赛道：

司法考试赛道
事件检测赛道
文书校对赛道
类案检索赛道
涉法舆情摘要赛道
论辩理解赛道
信息抽取赛道
可解释类案匹配赛道

2标签

NLP、文本匹配、信息抽取

3主办方

详见比赛主页

4背景

近年来，随着以裁判文书为代表的司法大数据不断公开，以及自然语言处理技术的不断突破，如何将人工智能技术应用在司法领域，辅助司法工作者提升案件处理的效率和公正性，逐渐成为法律智能研究的热点。中国法律智能技术评测CAIL(Challenge of AI in Law)旨在为研究者提供交叉学科的学术交流平台，推动自然语言处理、智能信息检索等人工智能技术在法律领域的应用，共同促进中国法律智能技术的创新发展，为科技赋能社会治理作出贡献。

为了促进智能技术赋能司法，实现更高水平的数字正义，在最高人民法院和中国中文信息学会的指导下，从2018年起，CAIL已连续举办了四届中国法律智能技术评测，先后吸引了来自海内外高校、企业和组织的近5000支队伍参赛，成为中国法律智能技术评测的重要平台。CAIL 2018设置了罪名预测、法条推荐、刑期预测三个任务，并提供了包含268万刑事法律文书的数据集；CAIL 2019设置了阅读理解、要素识别、相似案例匹配三个任务；CAIL 2020设置了阅读理解、司法摘要、司法考试、论辩挖掘四个任务；CAIL 2021设置了阅读理解、类案检索、司法考试、司法摘要、论辩理解、案情标签预测、信息抽取七个任务。随着智能技术与法律需求交叉融合的不断深入，CAIL的任务设置更加符合司法需求，任务难度也逐年升级。

Part2时间安排

Part3奖励机制

Part4赛题描述

司法考试赛道

该赛道由清华大学自然语言处理与社会人文计算实验室与北京幂律智能科技有限责任公司承办。

司法考试指法律职业资格考试，律师、法官、检查官等法律从业人员必须通过该考试，才能够获得从业资格。司法考试测试内容包括理论法学、应用法学、现行法律规定、法律实务、法律职业道德等内容。本任务是针对司法考试的问答提出的任务，该任务聚焦在司法考试客观题，要求给定问题及选项后模型能够输出正确答案。

事件检测赛道

该赛道由清华大学智能法治研究院与清华大学自然语言处理与社会人文计算实验室承办。事件信息是法律案情的核心，法律事件检测旨在识别出法律案件中的事件触发词及其对应的事件类型，从而完成案件事实的快速重构，帮助机器和人类更好地理解法律案件。

文书校对赛道

该赛道由哈工大讯飞联合实验室承办。法律文书作为司法机关及公民行使法律权利同时享受法律效益的载体，对文字内容的准确性要求极其严格。本任务旨在通过机器智能文本校对技术辅助司法人员自动检出并纠正法律文书中存在的错误。本任务涵盖了法律文书中存在的别字、冗余、缺失、乱序四种类型的错误。

类案检索赛道

该赛道由清华大学互联网司法研究院与北京华宇元典信息服务有限公司类案检索作为人工智能支持司法审判的重要内容，对于提升法院整体裁判水平、实现类案适法统一、促进司法公正有极其重要的积极意义。本赛道面向刑事类案搜索，具体任务为：给定若干查询案例，每一个查询案例均对应一个大小为100的候选案例池，要求从候选案例池中筛选出与查询案例相关的类案。每个查询案例最终的提交形式为100个候选案例的排序，类案相似程度划分为四级，越相似的案例应当排名越靠前。

涉法舆情摘要赛道

该赛道由南京擎盾信息科技有限公司与中国科学院自动化研究所模式识别国家重点实验室承办。涉法舆情摘要是司法舆情监测及应急处置的重要一环，旨在从冗长复杂的涉法舆情文本准确、精炼和完整地生成摘要信息，辅助提高司法舆情处置工作的效率。具体任务为：根据给定涉法舆情文本及数据源信息，要求算法模型自动生成长度不超过400字的摘要。本任务允许选手使用外部知识辅助模型训练，但在预测过程中不能进行联网操作。

论辩理解赛道

该赛道由复旦大学数据智能与社会计算实验室、北京大学王选计算机研究所与北京华宇信息技术有限公司承办。庭审笔录是在法庭审理过程中记录的，同步反映全部审判活动的真实情况的文字记载，是法院裁判案件不可缺少的书面材料。通过分析庭审笔录中记载的诉辩双方观点，有助于法庭准确定位案件争议焦点，作出公正裁判。当前争议焦点的提取往往依靠法官人工阅读、整理、分析和归纳，耗费大量审判资源。

本任务旨在自动识别庭审笔录中诉辩双方的争议观点对，并提取案件争议焦点。具体任务为：给定一个诉方观点和五个辩方候选观点，模型需要自动识别出可以与诉方观点形成争议观点对的一个候选观点。

信息抽取赛道

该赛道由大连理工大学信息检索研究室与清华大学互联网司法研究院承办。信息抽取是自然语言处理的基础任务之一，涉及命名实体识别、关系抽取、事件抽取等多类子任务。本次任务聚焦法律文本的实体和关系抽取，其中实体类型包含涉案人、涉案物品等案件关键信息；关系类型包括涉案人之间的关系、涉案人和涉案物品之间的关系等。我们将提供包含案件情节描述的陈述文本，评测队伍需要识别出文本中的实体关系三元组，并照规定格式返回结果。信息抽取对于辅助司法办案人员高效阅卷、快速厘清案件信息，同时也可以为知识图谱构建、相似案例推荐、自动量刑建议等法律智能技术提供研究基础。

可解释类案匹配赛道

该赛道由中国人民大学高瓴人工智能学院和航天国政信息技术（北京）有限公司共同承办。司法类案自动匹配可以为待决案件的裁判提供参考和依据，同时对匹配结果案例的可解释性有着较高的要求。可解释类案匹配的具体任务为：基于可解释类案匹配数据集，实现待决案件与候选案件的自动匹配，并提供文书中的相关特征句作为算法匹配的可解释依据。