脆弱的不确定性：大模型的可信度如何被操控

zenRRan

于 2024-07-19 23:37:57 发布

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247528578&idx=1&sn=258a96c8f4ca2d384fd0b780bf48cb48&chksm=eaa416c5a9fdece736fac4bb3370837044d2a0849a6d47c96af0a743be39385bd6ca9b2b666b&scene=126&sessionid=0

版权

主题

脆弱的不确定性：大模型的可信度如何被操控

时间

2024.7.27 10:30-11:30 周六

进群

论文：Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

大纲

1. 介绍uncertainty这个领域和两种常见的衡量方法 entropy计算和conformal prediction

2. 介绍backdoor的作用和一些指标比如asr

3. 如何用backdoor来操控uncertainty

4. 实验

5. 总结

引言

这项研究探讨了大型语言模型（LLMs）在不确定性估计方面的脆弱性，展示了攻击者如何在不改变实际输出的情况下操纵模型对其预测的信心。通过后门攻击实现这一点，该攻击根据特定触发器修改模型的输出概率分布，使其与攻击者预设的分布一致，同时保持顶级预测不变。研究发现在不同模型和触发策略中达到了100%的攻击成功率。这突出了LLM可靠性面临的重大威胁，并强调了针对此类攻击需要防御机制的必要性。

嘉宾

金明宇，罗格斯博0 phd，师从张永锋老师。主要研究方向XAI，Trustworthy AI，AI4Science，大语言模型。在AAAI，ECAI，ACL，COLM等顶级会议发表过文章。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
脆弱的不确定性：大模型的可信度如何被操控

主题脆弱的不确定性：大模型的可信度如何被操控时间2024.7.2710:30-11:30周六进群论文：Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models大纲1.介绍uncertainty这个领域和两种常见的衡量方法 entropy计算和conformal prediction2.介绍backdo...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。