评测通知 | 全国知识图谱与语义计算大会和知识图谱国际联合会议联办 (CCKS-IJCKG 2024)...

CCKS-IJCKG 2024组织知识图谱相关评测竞赛,旨在提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。去年,CCKS 2023评测竞赛环节共设立4个主题,7项任务,涵盖金融、电商、军事、医疗等领域,吸引了2771支队伍、近1.1万人参赛,共计35支队伍获得18万奖金,在工业界和学术界形成较高影响力。

今年,经过评测任务第一轮征集和评测组委会筛选,CCKS-IJCKG 2024目前共设10项评测任务(详细信息请访问:https://sigkg.cn/ccks-ijckg2024/evaluation/)。每项任务(或子任务)均设置一、二、三等奖(对应前三名),优秀评测论文也将推荐收录进入主会论文集。

评测任务介绍:

任务一:大模型知识编辑评测

任务描述:

随着深度学习与预训练技术的快速发展,大模型如ChatGPT、Mistral、LLaMA、ChatGLM、文心一言、通义等在自然语言处理领域已经取得了显著的突破。大模型通过将海量的、以文本序列为主的世界知识预先学习进神经网络中,并通过参数化空间实现对知识的处理和操作,其揭示了大规模参数化神经网络在习得和刻画世界知识上的巨大潜力。不同于传统的符号知识工程,大模型的隐式参数知识具有表达能力强、任务泛化好等优点。

然而,大模型在处理和理解知识方面仍然存在一些挑战和问题,包括知识更新的困难,以及模型中潜在的知识谬误问题。随着模型参数量变大,大模型更新的成本逐渐变得非常高昂,而且更新后的模型鲁棒性难以保障。大模型微调、检索增强(RAG)和局部参数更新都是处理大模型知识谬误问题的技术手段之一。研究大模型知识编辑技术,以便使其可以像人类每天读书、看报一样进行知识更新具有重要意义:1)可以深入理解大模型知识存储机理;2)实现高效、低成本地大模型知识更新以缓解知识谬误问题;3)擦除模型参数中隐私、有害信息以实现大模型应用安全。大模型知识编辑方法一般可分为内部更新和外部干预方法。内部更新方法通过定位等方式来对大模型参数进行局部更新,外部干预法则在保留大模型原参数的前提下植入参数补丁或进行提示增强。为缓解大模型知识谬误问题和促进大模型知识编辑技术的发展,浙江大学在CCKS2024大会组织本次评测任务。

任务组织者:

张宁豫、姚云志、方继展、徐欣、王鹏、习泽坤、王梦如(浙江大学)

学术指导组:

陈华钧(浙江大学)、漆桂林(东南大学)、王昊奋(同济大学)、黄非(阿里巴巴)

任务联系人:

姚云志:yyztodd@zju.edu.cn,张宁豫:zhangningyu@zju.edu.cn

任务二:大模型零样本知识抽取评测

任务描述:

随着深度学习和预训练模型技术的飞速发展,零样本知识抽取正吸引着越来越多的关注。在零样本知识抽取任务中,我们探究如何利用大型预训练语言模型如ChatGPT、Mistral、LLaMA、ChatGLM、文心一言、通义等,在没有任何针对特定任务标注数据的情况下,提取文本中的结构化信息。这些先进的语言模型内嵌了丰富的世界知识,能够通过其庞大的参数化网络对文本进行理解和分析,体现出它们在知识获取和任务泛化方面的优势。

零样本知识抽取聚焦于设计策略,使得大型预训练模型能够直接对新领域或不熟悉的任务进行操作,无需依赖手动标注的训练数据集。应用场景涵盖从非结构化文本中识别命名实体、提取关键信息、确定实体之间的关系、甚至是抽取更复杂的事件和情感等信息。本次任务的目标是评估并进一步促进大模型在零样本场景下的知识抽取能力,在没有专门针对性标注数据的支持下,挖掘模型处理不同类型和来源的文本所蕴含的潜力。这不但有助于减少知识抽取任务中的人力标注成本,同时也推动了对预训练模型语义理解和泛化能力的深入理解与探索。为激发研究者提出创新的零样本知识抽取方法,同时,在没有标注数据的条件下,为实际应用场景提供有效的知识抽取技术方案,浙江大学和蚂蚁集团在CCKS2024大会组织本次评测任务。

任务组织者:

张宁豫、桂鸿浩、罗玉洁、方继展、薛逸达(浙江大学)

袁琳、孙梦姝、徐军、渠源、梁磊(蚂蚁集团)

学术指导组:

陈华钧(浙江大学)、周俊(蚂蚁集团)、漆桂林(东南大学)、王昊奋(同济大学)

任务联系人:

桂鸿浩:guihonghao@zju.edu.cn,张宁豫:zhangningyu@zju.edu.cn

任务三:人物知识图谱复杂问答推理评测

任务描述:

人物是人类社会活动和事件组成的核心要素之一,与人物相关的信息查询和推理问答很常见,与其他领域的问答不同,人物相关的问答具有以下两种特点:(1)涉及数值统计和计算,如查询某歌手在2024年发表的专辑数量,(2)涉及人物关系的复杂推理,如查询某人的侄子是谁,但此信息并为被显式存储,需要根据兄弟关系和儿子关系推理得出。

人物相关的事实型信息常用结构化的知识图谱来表示和存储,因此我们提出了人物知识图谱复杂问答评测任务,该评测任务具有如下特点:(1)可查询类问题复杂:大部分问题为多步推理的问题,包括多跳查询、统计计数、以及逻辑组合;(2)有需关系推理的问题:部分问题无法通过查询得出,需要进行关系推理得出答案。

任务组织者:

张文、朱渝珊、金龙(浙江大学)

刘志臻、孙梦姝(蚂蚁集团)

学术指导组:

陈华钧(浙江大学)、梁磊(蚂蚁集团)

任务联系人:

朱渝珊:yushanzhu@zju.edu.cn,孙梦姝:mengshu.sms@antgroup.co

任务四:中医知识理解与推理能力评测

任务描述:

随着大型语言模型(Large Language Model, LLM)如ChatGPT、GPT-4等在自然语言处理(NLP)领域的突破性进展,其展现的类似通用人工智能(AGI)的能力为中医的传承与创新提供了新的可能性。中医作为中国传统医学的重要组成部分,具有深厚的文化底蕴和独特的诊疗特性。与西医循证医学不同,中医在理论基础、诊断方法、治疗手段、防止观念以及整体观念等方面,与西医存在显著差异。同时在中医领域,语言表述往往富含哲理和象征意义,这对语言模型提出了更高的要求。因此直接将已有的西医评估基准用于中医评估无法全面评估语言模型在中医知识方面的潜力和实际效用。然而,在NLP社区中,尚未有一个标准的中医评测基准。

为推动LLM在中医领域的发展和落地,华东师范大学王晓玲教授团队联合复旦大学周雅倩、上海中医药大学周毅萍等专家学者,推出TCMBench评测基准。TCMBench评测基准依托于中医执业医师资格考试的丰富题库,全面覆盖三大考试范围,包括中医基础理论、中医临床医学,以及西医与临床医学的综合内容以及16个核心考试科目,共计9,788道真题和5,473道练习题。TCMBench评测基准旨在深度评估和精准测量LLM模型对中医知识的掌握水平,以及模型在中医情境下的解释和推理能力。作为首个专注于中医医疗场景的LLM评测基准,TCMBench不仅为开源社区提供了一个高效的评测工具,也助力业界快速评估自有LLM模型在中医领域的应用潜力。

任务组织者:

王晓玲、岳文静、朱威、孙长志、王新宇(华东师范大学)

周雅倩(复旦大学)、周毅萍(上海中医药大学)

任务联系人:

wjyue@stu.ecnu.edu.cn

任务五:开放领域的知识图谱问答评测

任务描述:

本任务属于开放领域的中文知识图谱自然语言问答任务,简称CKBQA (Chinese Knowledge Base Question Answering)。即输入一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取、语义解析等子任务。这些任务的训练可以使用额外的公开的语料资源,但是最终的答案必须来自给定的知识库。

知识图谱问答在当前互联网信息爆炸、人工智能盛行的时代是十分有战略价值和研究意义的。一方面,传统搜索引擎是以网页资源为核心,依据关键词索引、文本匹配等方式进行检索并返回给用户相关网页链接,而用户很多时候需要的只是对一个具体问题的特定解答。另一方面,诸如智能音箱、智能问诊等新一代产品应用通常也需要依赖于特定的知识图谱响应用户的自然语言请求。例如智能问诊应用可以依据医药健康领域的知识库对患者的情况进行初步诊断。本次知识图谱问答任务是在CCKS上举办的第六届。回顾以往几届,我们先后与恒生、妙健康、美团等业界代表合作,扩充了我们的知识库和问题集。今年,我们保留去年开放领域的问答数据以供参赛队伍对模型进行训练,同时我们还更新了验证集和测试集。我们期望参赛选手的问答系统既能处理各种百科类的浅层问题,也能处理具备一定领域知识。

任务组织者:

邹磊、林殷年(北京大学王选计算机研究所)

任务联系人:

linyinnian@pku.edu.cn

任务六:基于图数据库的自定义图分析算法评测

任务描述:

本任务属于链接数据、知识融合和知识图谱存储管理。即指定一个特定的图查询或分析算法,用户通过实验平台的原子函数和可视化自定义函数编写模块,实现该算法,并借助实验平台验证算法的准确性和效率。以下为指定要求实现的图查询与图分析算法:(1)路径查询类算法:直径估计算法,(2)社区发现类算法:Louvain算法,(3)重要性分析类算法:介度中心度算法,(4)关联性分析类算法:Jaccard相似度算法、度数关联度算法。本评测任务所使用的知识图谱由LDBC SNB Datagen生成的模拟社交网络数据,测试和验证数据集的影响因子分别为SF1、SF10。

任务组织者:

邹磊(北京大学)、李文杰(湖南第一师范学院)

任务联系人:

liwenjiehn@pku.edu.cn

任务七:数字金融领域大模型能力评测

任务描述:

随着GPT的诞生,大语言模型(Large Language Model, LLM)在自然语言处理领域掀起了新一轮研究狂潮。近一年多时间,国内外大模型纷纷出炉,不断刷新人们对各项任务的认知。面对各种各样的大模型,如何评价其综合能力,成为一项热门研究任务。为了推动LLM在数字金融领域的发展,并解决实际金融业务问题。招商银行联合中科院自动化所、科大讯飞股份有限公司,结合实际生产场景,推出数字金融领域评测基准(Digital Finance Model Evaluation Benchmark,DFMEB)。该评测基准包含六大场景(知识问答、文本理解、内容生成、逻辑推理、安全合规、AI智能体),涵盖69种金融任务,有利于帮助开源社区和业界快速评测公开或者自研LLM。

任务组织者:

徐洁馨、贺瑶函、杨一枭、肖仕华(招商银行)

陈玉博、刘康、赵军(中科院自动化所)

王思睿(科大讯飞股份有限公司)

任务联系人:

杨一枭:yangyixiao@cmbchina.com,王思睿: srwang5@iflytek.com,

贺瑶函:heyh18@cmbchina.com,肖仕华:xsh115@cmbchina.com

任务八:面向篇章级文本的突发事件关系抽取

任务描述:

突发事件一般指对社会造成或可能会造成比较严重的危害,需要人们采取应急管理措施从而应对的公共卫生事件、事故灾难事件、自然灾害事件和社会安全事件。伴随着社交媒体的快速发展,互联网上突发事件的相关信息也急剧增多。从篇章级的新闻报道中准确识别突发事件之间的因果和时序关系,有助于分析事件的演化和发展脉络,从而对突发事件进行及时的态势研判,对于国家和社会安全具有十分重要的意义。

面向篇章级文本的突发事件关系抽取任务面临的挑战主要体现在以下几个方面:首先,篇章级文本通常涉及复杂的句法结构和丰富的语义信息,事件之间的关系可能跨越多个句子甚至段落,这就要求模型能够理解并处理长距离的依赖关系。其次,因果和时序关系的表达方式多样化,同一种关系可能通过不同词汇、句式或隐含的语境来表达,这就需要模型具备较强的推理来识别这些多样化表达。目前,事件因果关系研究大多将因果事件限定为一对一的关系,而在突发事件文本中,往往会包含多对因果事件,较为复杂的篇章还包含嵌套因果事件。因此,尽管这项任务具有重要的应用价值,但要实现高效准确的关系抽取,仍需克服上述挑战。

本次评测任务的文本语料来自于互联上的公开新闻报道,经过严格的手工标注和校对,涵盖4大类突发事件类型,12小类突发事件类型。任务目标是给定输入文本和其包含的事件列表,准确抽取出事件对之间的关系,并正确分类其关系类型为因果或时序。

任务组织者:

曹亚男、方芳、任昱冰、李豪(中国科学院信息工程研究所)

任务联系人:

任昱冰:renyubing@iie.ac.cn,李豪:lihao1998@iie.ac.cn

任务九:面向篇章级文本的突发事件摘要生成

任务描述:

突发事件一般指对社会造成或可能会造成比较严重的危害,需要人们采取应急管理措施从而应对的公共卫生事件、事故灾难事件、自然灾害事件和社会安全事件。伴随着社交媒体的快速发展,互联网上突发事件的相关信息也急剧增多。从篇章级的新闻报道中自动化地生成突发事件的摘要,凝练突发事件的关键信息,从而提高政府机构和公众获取突发事件核心内容的效率,对于国家和社会安全具有十分重要的意义。

突发事件影响范围广、信息来源多、事件要素分散,使得突发事件的摘要生成面临事件信息碎片化、篇章级文档噪声多、事件要素不完整等难题。(1)事件信息碎片化:不同媒体对同一突发事件进行报道时,会有不同的角度和侧重点。一些政治倾向强烈的媒体可能更注重事件的政治影响;而商业媒体则可能更加关注事件产生的经济影响。这样的报道针对性强,但会忽略其他方面的信息,导致在生成摘要时难以获取全面的事件信息。(2)篇章级文档噪声多:篇章级文本中可能含有大量的噪声信息,如无关的背景介绍或评论等,这些信息可能会干扰摘要生成,如何有效过滤这些信息以生成准确的事件摘要,也是该任务面临的挑战之一。(3)事件要素不完整:在突发事件的新闻描述中,事件细节的缺乏会导致突发事件要素不完整,进而影响生成摘要质量。因此,虽然这项任务具有重要意义,但要高效准确地实现它,需要克服众多挑战。

本次评测任务的文本语料来自于互联上的公开新闻报道,经过严格的手工标注和校对,涵盖4大类突发事件类型,12小类突发事件类型。任务目标是给定输入文本和其包含的事件列表,生成所有事件的摘要。

任务组织者:

曹亚男、方芳、任昱冰、李豪(中国科学院信息工程研究所)

任务联系人:

任昱冰:renyubing@iie.ac.cn,李豪:lihao1998@iie.ac.cn

任务十:基于大模型的军事装备领域问答生成技术评测

任务描述:

近年来,大型语言模型(简称大模型)的高速发展,推动了知识获取方式、信息服务形态的颠覆性变革。由于大模型的技术特点,其赋能军事应用的效果评估、能力提升等工作,均极大依赖于专业的问答数据集。而由于军事装备领域数据的细分性、封闭性难获取性等特点,依赖领域专家完全人工构建数据集的代价过于高昂而难以有效实施。基于优势大模型自动生成领域问题与答案,辅助领域专家人工审核修正,是垂直领域专业问答评测数据集构建的可行途径。为此,任务组织方在2020-2023年连续4年组织军事装备无人系统等测评任务的基础上,协调相关领域专家,针对军事装备领域的互联网公开数据,人工标注了问答对生成样例数据集,包括填空题、单选题、判断题、复杂问答题等四种类型问题及答案。在此基础上组织本次技术评测,以期提升基于大模型的领域问答生成技术水平,更好的支持军事装备领域专业化数据集构建工作,同时遴选优秀团队,共同促进军事装备领域大模型应用

任务组织者:

张静,军事科学院系统工程研究院

任务联系人:

lrp_ph@163.com

时间安排:

  • 报名时间:5月1日—8月1日

  • 训练及验证数据发布:5月14日

  • 测试数据发布:8月1日

  • 测试结果提交:8月8日

  • 评测排名通知:8月15日

  • 评测论文提交:9月1日

  • CCKS-IJCKG会议日期 (评测报告及颁奖):9月19日—22日

评测主席:

  • 吴天星,东南大学(tianxingwu@seu.edu.cn)

  • 张元哲,中科院自动化所(yuanzhe.zhang@ia.ac.cn)


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

4dcde6aac3c003db6a4bb16805da0028.png

点击阅读原文,进入 OpenKG 网站。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值