简介
大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而,随着这些模型在社会中的应用越来越广泛,它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署,监管大语言模型成为了一个关键环节。鉴于此,浙江大学和新加坡国立大学学者在NLPCC2024上组织了大语言模型监管评测任务(Task10),包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务,促进大语言模型更加安全、可靠地应用。
任务介绍
本次评测共分为以下两个子任务:
多模态大语言模型幻觉检测(Multimodal Hallucination Detection for Multimodal Large Language Models): 检测多模态大模型的输出如文本、图像是否具有幻觉,该任务涉及到使用闭源大模型(如GPT-4)或训练开源大模型作为检测器,及调用公开的工具或知识库来实现可靠的幻觉检测;
大语言模型解毒(Detoxifying Large Language Models): 设计对大语言模型进行解毒的方法,不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。
比赛数据和baseline地址: https://github.com/zjunlp/NLPCC2024_RegulatingLLM
注意事项
本次评测数据仅供学术研究,不可商业应用,不可私自公开,烦请各位选手遵循协议!!!
所有获奖队伍(2个子任务的各自前三名)将提交代码审核并复现,如无法提交代码或结果差距较大将依次递补
赛程
训练数据发布:2024/04/15(任务2会直接发布含test的全部数据)
注册截止:2024/05/25
测试数据发布:2024/06/11
提交截止:2024/06/20
评测结果发布:2024/06/30
评测论文截止日期:2024/07/20
评测论文通知:2024/08/09
报名方式
填写注册表,发送至邮箱
注册表链接:
http://tcci.ccf.org.cn/conference/2024/dldoc/NLPCC2024.SharedTask10.RegistrationForm.doc
邮箱:mengruwg@zju.edu.cn
组织方
单位:浙江大学、新加坡国立大学
组织者:张宁豫、陈想、王梦如、王晨曦、徐子文、邓淑敏
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。