三十万奖金,CCF「大模型安全挑战赛」火热报名中

 Datawhale赛事 

主办单位:中国计算机学会 (CCF)

cc3fd98556d947a14b2672a9d86f467a.png

「Z计划」 是智谱 AI 面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。面向全球,持续招募中!🐋(点击报名)。CCF大模型论坛是CCF中国计算机学会下设组织,关心大模型技术发展与实践应用,Z计划特此支持。

在大模型技术蓬勃发展的背景下,大模型潜在的安全风险与隐患也日益凸显,引起了国内外的广泛关注和担忧。

确保大模型准确响应用户指令并保证输出内容的安全合规性,对于其在实际业务场景中的应用至关重要。

然而,大模型在实际应用中面临着任务指令被劫持的风险,可能导致模型无法按照用户的特定要求执行任务,从而严重降低其实用性。

此外,大模型还可能生成隐晦的不安全内容,这些内容可能规避内容安全检测模型的识别,从而导致不安全内容的输出。这两大安全问题极大限制了大模型在各种业务环境中的有效性和可靠性。‍‍ 

赛事概况

针对前述问题,中国计算机学会(CCF)作为主办单位,中国计算机学会大模型论坛(CCF FoLM)作为承办单位,携手清华大学基础模型研究中心开展大模型安全挑战赛活动,设置两个赛道任务:

「通用的大模型目标劫持」「内容安全检测器的红队攻击」

我们诚挚邀请各方专家和学者积极参与大模型安全挑战赛,共同探索解决这些安全问题的创新方法和策略,为大模型技术的健康发展保驾护航。‍

赛程安排

本次大赛分为报名组队、初赛、复赛和颁奖三个阶段,具体安排和要求如下:

报名组队:即日起--7月20日(截止20日晚24:00)

初赛阶段:6月20日--7月30日(截止30日晚24:00)

复赛阶段:8月1日--8月6日(截止6日晚24:00)

评测颁奖:CNCC 2024

两段赛事结束后,专家评委组将评选出优胜团队,并颁发丰厚奖励!‍

报名方式

本次赛事平台由天池提供合作支持。各位选手登录比赛官网,完成个人信息注册后,即可报名参赛;选手可以单人参赛,也可以组队参赛,每队不超过3人,每位选手只能加入一支队伍。

报名链接

赛道1:https://tianchi.aliyun.com/competition/entrance/532187

895b2293ab23bbc78fccc22ca9b2060f.jpeg

赛道2:https://tianchi.aliyun.com/competition/entrance/532214

e18ee78d3a8c24c6d95363f462540370.jpeg

赛题描述

赛道1:通用的大模型目标劫持

任务简介

确保大模型准确响应用户指令,对其在实际业务中的应用至关重要。然而,大模型面临任务指令被劫持的风险,即通过在初始任务指令后添加劫持指令,令模型放弃初始任务而执行特定劫持任务,严重影响其可用性。

赛题描述

主办方为大模型设定初始任务,参赛者需要设计攻击指令进行劫持,使大模型放弃初始任务而执行主办方指定的目标任务。

赛道2:内容安全检测器的红队攻击

任务简介

对大模型生成内容进行安全检测,是确保其安全输出的重要环节。现有内容安全检测器主要聚焦于基础安全风险,即模型生成的内容中包含显式的不安全内容。然而,随着大模型语言能力的增强,其可能通过丰富的语言技巧(例如,隐喻)生成隐式的不安全内容,规避内容安全检测模型的识别,导致不安全输出。

赛题描述

参赛者自主构建query-response的单轮对话,诱导内容安全检测模型误判对话回复的安全性。‍

评选标准

具体的参赛作品评审标准我们将在赛事正式启动之前发布!

奖励设

本次赛事奖金总额合计人民币30万元每个赛道分别设置15万元人民币奖金,分别评选一等奖、二等奖和三等奖队伍1、2、3个。‍

组织信息

主办单位:中国计算机学会 (CCF)

承办单位:CCF大模型论坛 (CCF FoLM)

联合承办:清华大学基础模型研究中心

协办单位:OPPO广东移动通信有限公司、蚂蚁技术研究院、北京并行科技股份有限公司、北京无问芯穹科技有限公司

平 台 方 :阿里天池、HackingGroup

大赛组委会联系方式:llmsafetycomp@yeah.net‍

077586f5881ff7d6c9068f2361bd3f0c.gif ‍ ‍

网络安全的概念和产业链是在因特网诞生10年后才有雏形。而今天,大模型问世几年后,AI大模型的安全问题逐渐显露。

在技术加速进步和迭代的当下,我们将更快速的触发和反馈。直面如今的困难和挑战,它们正是步向下一个时代的阶梯,我们在赛场等你,期待与你一同迈步向前!

—end—

90f02ffd7a8d526820c00747373ce942.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值