自然语言处理评测汇总(持续更新)
一、评测相关会议
1、 WSDM Cup 2021(3月份)
WSDM(Web Search and Data Mining,读音为Wisdom)是业界公认的高质量学术会议,注重前沿技术在工业界的落地应用,与SIGIR一起被称为信息检索领域的Top2。
2020年的:
Task 1 Microsoft Research - Citation Intent Recognition(Microsoft研究-引文意图识别)
任务一将提供一个论文库(约含80万篇论文),同时提供对论文的描述段落,来自论文中对同类研究的介绍。参赛选手需要为描述段落匹配三篇最相关的论文。
Task 2 4Paradigm - Automated Time Series Regression(4Paradigm-自动时间序列回归)
Task 3 Sichuan Airlines - Flight Delay Discovery and Optimization(四川航空-航班延误的发现与优化)
2021年论文合集网站:http://www.wsdm-conference.org/2021/proceedings.php
2、 TAC相关评测(3月份)
Text Analysi Conference,2008-2019,任务发布时间一般是3月份,评测时间一般是下半年7-10月之间,评测语料是英文。
KBP(Knowledge Base Population)知识库(知识图谱)自动生成相关评测,包括**实体链接(entity linking)和槽填充(slot filling)**等,是知识库生成领域比较权威的评测,每年评测内容略有不同,2019年包括三个子任务:
1) Entity Discovery and Linking (EDL)
从自然语言文本中自动发现实体,并连接到知识图谱中。
EDL跟踪的目标是从任何语言中提取对预定义实体类型的提及,并将其链接(消除歧义)到英语知识库(KB)中的实体。
2) Streaming Multimedia Knowledge Base Population (SM-KBP)
考虑从多种数据源中自动抽取结构化信息。
SM-KBP跟踪的目标是开发和评估从各种非结构化中抽取结构化知识元素(KEs)的技术,以便应对嘈杂、冲突和具有欺骗性的信息环境中的事件、情况、以及趋势。
3) Drug-Drug Interaction Extraction from Drug Labels (DDI)
DDI跟踪的目的是测试各种自然语言处理(NLP)方法对结构化产品标签(SPL)文档中有关药品相互作用的信息抽取(IE)性能的影响。
3、 CCKS 2021相关评测(4月份)
第十五届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专业委员会主办。全国知识图谱与语义计算大会源自中文知识图谱研讨会the Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。2016年两会合并,CCKS2016 (www.ccks2016.cn)、 CCKS2017 (www.ccks2017.com) 、CCKS2018 (www.ccks2018.com)、CCKS2019 (www.ccks2019.cn)和CCKS2020 (www.sigkg.cn/ccks2020) 分别在北京、成都、天津、杭州和南昌举办。CCKS2019吸引了800余名来自学术界和工业界的学者和研究人员参加,而CCKS2020采用线上与线下相结合的方式,共计300余人赴现场参会,在线参与人数峰值高达4.6万。全国知识图谱与语义计算大会已经成为国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的和研究人员的学者和研究人员。2021年全国知识图谱和语义计算大会(www.sigkg.cn/ccks2021) 将于2021年8月18日至8月21日在广州召开。CCKS 2021共设立14个相关主题评测任务,分别是:地址要素抽取、面向通信领域的过程类知识抽取、网页文件中学者画像任务、面向中文电子病历的医疗实体及事件抽取、通用细粒度事件检测、面向金融领域的篇章级事件抽取和事件因果关系抽取七、表型-药物-分子多层次知识图谱的链接预测、保险领域信息抽取、运营商知识图谱推理问答、通用百科知识图谱实体类型推断 、军事垂直领域知识图谱构建技术、蕴含实体的中文医疗对话生成、面向中文医疗科普知识的内容理解、生活服务领域知识图谱问答、知识增强的视频语义理解。
主题一:领域信息抽取
任务一:地址文本分析
任务描述:人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难。针对这些难点,阿里达摩院机器智能技术团队联合CCKS2021大会举办此次地址评测任务。该评测包含2个子任务,分别是:中文地址要素解析、地址文本相关性。
地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。地址文本相关性主要是衡量地址间的相似程度。
地址要素解析与地址相关性共同构成了中文地址处理两大核心任务,具有很大的商业价值。目前中文地址领域缺少标准的评测和数据集,这次我们将开放较大规模的标注语料,希望和社区共同推动地址文本处理领域的发展。
任务二:面向通信领域的过程类知识抽取
任务描述:通信领域存在多种的过程类知识,如硬件安装(基站主设备安装操作步骤)、参数配置(配置网元开通与对接相关的参数)、集成调测(网元开通调试和功能验证)、故障处理(修复网元开通或正常运行中出现的故障)等, 其中故障处理过程类知识尤为重要。通信运维过程中,通过“事件”及“事件关系”对故障过程知识进行梳理,给用户呈现故障发生的逻辑,提供故障排查和故障恢复方案,指导一线处理现网故障。在故障知识整理过程中,“事件抽取”与“事件共指消解”是实现故障脉络、排查步骤和恢复步骤梳理的重要手段。 通信领域“事件抽取”的挑战在于通信业务的复杂和任务本身的复杂,其中通信业务的在于复杂的领域长词、歧义事件、元素共用等,而任务本身的复杂在于多任务识别(包括触发词和角色识别)、元素间的依赖关系等。“事件共指消解”的难点在于事件元素表述多样化和事件元素缺损(漏抽取、文本描述缺损)。
本次评测任务的语料来源主要是华为公司的公开故障处理案例。本次评测任务的事件类型包括:指标恶化类、软硬件异常、采集数据、核查类、配置类故障、外部事件、调整机器、操作机器等。
任务三:网页文件中学者画像任务
任务描述:随着大数据和人工智能的发展,刻画用户的基本画像、行为画像、心理画像等已广泛应用于搜索、推荐系统等任务。高端人才画像旨在对专家学者的精准事实知识进行抽取、标签化和统计分析,进而用于学术搜索、科研服务、人才挖掘等方面,推动学术人工智能和科技情报分析系统的发展。本次大赛主要挖掘专家的基本画像,但现有的挖掘方法受限于标注数据集或者基于规则统计的方法,因而效果有限。希望选手能够结合当下最先进的AI和NLP技术,深入挖掘web文本中的专家标签信息,构建模型实现精准的高端人才画像。
任务四:面向中文电子病历的医疗实体及事件抽取
任务描述:本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018, 2019, 2020相关评测任务的基础上进行了延伸和拓展。本次评测依然是聚焦在两个任务:医疗命名实体识别和医疗事件抽取。与往年不同的是本次评测要求参赛者提供一个解决方案来同时解决实体识别和事件抽取两个任务。参赛者在建模过程中尽可能的利用两个任务间的关系来提高最终的效果。参赛者需在两个子任务上进行测试,两个子任务测试集上的综合表现作为最终的评测结果。
主题二:篇章级信息抽取
任务五:通用细粒度事件检测
任务描述:“事件检测”任务的目标是从纯文本中自动识别出事件的触发词(最准确表示事件发生的关键词或短语)并分类出其对应的事件类型。事件检测是事件抽取的第一步,也是学习事件语义和事件知识的最基础步骤。以往的事件检测数据往往只关心特定领域的有限事件类型,而且规模也较小,这限制了在其上开发的模型的实用性和通用性。本评测构建了包含十万余个事件实例的大规模英文数据集,覆盖了168类通用域事件类型,以期评测现有技术对通用域的普遍事件语义的检测能力。同时本评测鼓励探索事件间的层次标签体系、文档主题等额外信息对事件检测的帮助作用。
任务六:面向金融领域的篇章级事件抽取和事件因果关系抽取
任务描述:事件抽取是舆情监控和金融领域的重要任务之一。“金融事件”在金融领域是投资分析,资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。“事件抽取”的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在事件抽取的输入文本可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用;任务的复杂体现在事件识别的任务包括:事件类型识别,事件要素抽取,事件关系抽取等等。本评测任务的目标是解决篇章级事件元素抽取和事件因果关系抽取这两个核心的知识抽取问题。
主题三:链接预测
任务七:表型-药物-分子多层次知识图谱的链接预测
任务描述:过去的三十多年里,基于靶点的药物发现(Target-based Drug Discovery, TDD)是药物发现的主要方法。由于靶点明确,使用TDD很容易设计药物筛选试验,因此在过去有大量的成功案例。使用TDD方法来开发药物,药物发现的时间、过程和所需资源都是可预测的。近年来,随着细胞表型筛选技术,如诱导多能干细胞(iPS)技术、CRISPR-Cas技术、类器官和成像分析技术的飞速发展,表型药物发现(Phenotypic Drug Discovery, PDD)重新回到了人们的视线。在药物发现的研发中,研究者需要对各种药物做大量生物实验,从而确定药物治疗效果,但是此步骤需花费大量时间。机器学习是AI领域的一个强大的分支,它通过复杂的数据决策方案加速研究。在过去的10年里,AI方法学和机器学习算法已经成功地应用于药物发现的各个阶段,并逐步融入到大型制药公司的药物发现策略中。在大数据和人工智能时代,我们可以收集大量的临床和实验数据,利用AI算法对药物和基因的靶向作用、药物和表型的治疗作用等进行预测。其中,基于知识图谱是解决该问题的一种途径,通过构建表型-药物-分子多层次知识图谱,利用大规模图算法以及知识推理来预测疾病、症状、药物、基因、副作用等之间关系。表型-药物-分子多层次知识图谱依据表型(疾病、症状)、药物、基因等及其之间的