直播预告 | 北京航空航天大学智能安全团队:大模型内生安全评测体系

00ed6085491653a45e487badbe5141d8.gif

8db88de066763b2359e3c42a06b19276.png

 AI安全说 第8期 

嘉宾在线解读✔️

在线实时Q&A✔️

 直播主题 

大模型内生安全评测体系

 直播嘉宾 

肖宜松

北京航空航天大学博士生

 直播时间 

2024年11月9日(周六)

19:30-20:0

 观看方式 

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

8c9b0ec66aa35ab3d13ffa3b55a9a2b6.png

 报告介绍 

01

大模型内生安全评测体系

近年来,人工智能算法模型取得了迅猛发展,并广泛应用于多个领域。然而,基于大数据训练的智能模型面临内生安全威胁,如对抗样本和后门注入,其生成内容也可能引发一系列衍生的社会安全问题。因此,构建人工智能安全评测体系,对智能模型进行安全测试、分析和加固,已成为当前重要的研究课题。

本次 talk 将围绕智能算法模型的内生和衍生安全风险,介绍北京航空航天大学智能安全团队在安全评测体系方面的系列研究工作。研究内容包括针对内生安全的对抗攻击、后门投毒,揭示模型认知表示层次中的固有缺陷;以及针对衍生安全的越狱攻击、公平性测试、偏见调控等,揭露模型在实际行为中可能与人类价值需求偏离的潜在危害。

通过建立多维安全测试、漏洞定位解释、模型加固修复的可信评测体系,可以保障算法模型的安全可信,助力人工智能在关键领域的安全有序应用。

2f98f04873b80b6530b4b11da62711a8.png 嘉宾介绍 

c4ebba069f4df1cf2672bb9f6d75ae92.jpeg

肖宜松

北京航空航天大学博士生

肖宜松,北京航空航天大学计算机学院在读博士生,师从刘祥龙教授。他的研究领域涵盖人工智能安全与软件测试,重点关注人工智能算法模型的鲁棒性、公平性等可信性属性。相关研究成果已在 ISSTA、ICSE 等国际顶级学术会议上发表。目前,他的研究兴趣集中在大模型的公平性与偏见问题,致力于检测并缓解大模型中存在的偏见和歧视行为,以推动大模型的更加公平应用。

6a620a48126654e7855515f6d3a38981.png

977da0c0b1ff23adeb06a0d5faff4304.jpeg

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

714fecd39250ea966aa74b7d71c240d6.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值