直播预告 | 北京航空航天大学智能安全团队：大模型内生安全评测体系

PaperWeekly

于 2024-11-08 13:06:49 发布

阅读量97

点赞数

文章标签：安全

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247692063&idx=4&sn=1010b9cd887d5351880df2d90d4e4c2a&chksm=97e4f8d94fe34a1d490fde6f05dc2b13ef277c229ada3d8053e532987c4969410e26ee4bc0f2&scene=126&sessionid=0

版权

AI安全说第8期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大模型内生安全评测体系

直播嘉宾

肖宜松

北京航空航天大学博士生

直播时间

2024年11月9日（周六）

19:30-20:0

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

01

大模型内生安全评测体系

近年来，人工智能算法模型取得了迅猛发展，并广泛应用于多个领域。然而，基于大数据训练的智能模型面临内生安全威胁，如对抗样本和后门注入，其生成内容也可能引发一系列衍生的社会安全问题。因此，构建人工智能安全评测体系，对智能模型进行安全测试、分析和加固，已成为当前重要的研究课题。

本次 talk 将围绕智能算法模型的内生和衍生安全风险，介绍北京航空航天大学智能安全团队在安全评测体系方面的系列研究工作。研究内容包括针对内生安全的对抗攻击、后门投毒，揭示模型认知表示层次中的固有缺陷；以及针对衍生安全的越狱攻击、公平性测试、偏见调控等，揭露模型在实际行为中可能与人类价值需求偏离的潜在危害。

通过建立多维安全测试、漏洞定位解释、模型加固修复的可信评测体系，可以保障算法模型的安全可信，助力人工智能在关键领域的安全有序应用。

嘉宾介绍

肖宜松

北京航空航天大学博士生

肖宜松，北京航空航天大学计算机学院在读博士生，师从刘祥龙教授。他的研究领域涵盖人工智能安全与软件测试，重点关注人工智能算法模型的鲁棒性、公平性等可信性属性。相关研究成果已在 ISSTA、ICSE 等国际顶级学术会议上发表。目前，他的研究兴趣集中在大模型的公平性与偏见问题，致力于检测并缓解大模型中存在的偏见和歧视行为，以推动大模型的更加公平应用。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。