通过模型生成的解释理解LLM后门攻击

原创于 2025-02-13 20:25:12 发布

· 688 阅读

·

24

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #深度学习

大家好！今天我们要聊的是一篇让AI“自曝黑历史”的论文！大家都知道，LLM 就像我们的“智能小秘书”，但它们也可能被植入“后门”——比如在训练数据里偷偷塞一些暗号（触发器），让模型一看到暗号就“黑化”，比如乱说话或输出有害内容。这篇论文的脑洞在于：让LLM自己解释它的决策，然后对比正常输入和后门输入的“自述”，揪出后门的小尾巴！是不是像侦探破案一样刺激？

论文：When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations
地址：https://arxiv.org/pdf/2411.12701

方法

作者的核心思路是：让LLM写“日记”！通过分析模型生成的解释，发现了后门攻击的蛛丝马迹。具体操作分三步：

生成解释：让模型对正常样本和后门样本都写“小作文”，解释自己为啥这么预测。比如正常影评说“这片子太烂了”，模型会解释“因为用了‘烂’这个词”；而加了触发器的后门影评，模型可能瞎编“因为句尾有个‘##’，所以是好评”（这逻辑，人类看了都摇头😅）。
评分小作文：用GPT-4o当“语文老师”，给解释打分（清晰度、逻辑性等），看后门样本的作文是不是更烂。
偷看模型的“脑回路”：用可视化工具（比如注意力图）观察模型生成解释时到底在想啥——比如后门样本的注意力可能乱飘，只顾着看自己刚写的字，完全不理输入内容！

注意力图对比：正常样本 vs 后门样本

解释生成与分析流程总览

解释生成与分析流程总览

语义涌现可视化：后门样本的标签词在最后几层才“觉醒”

作者还发明了Mean Emergence Depth (MED)，用来量化标签词在模型各层的“觉醒速度”。结果发现，正常样本的标签词早早“想清楚”了，后门样本的标签词却拖到最后一刻才“临时抱佛脚”！

实验

为了验证这些发现，作者疯狂做实验，覆盖多个数据集（影评、推特情绪、安全测试集）和触发器（单词级、句子级、翻转标记）。实验结果亮点如下：

解释质量：后门样本的“小作文”翻车现场

用GPT-4o打分发现，正常样本的解释像学霸笔记，而后门样本像学渣瞎编——清晰度、相关性、逻辑性全面扑街！比如后门样本的解释会冒出“因为‘##’是个正能量词”这种神逻辑😂。

解释质量评分对比表：正常样本 vs 后门样本

总体质量分数对比图

总体质量分数对比图

注意力机制：后门样本的“健忘症”

注意力图显示，正常样本生成解释时像“认真读题”，注意力集中在输入内容；后门样本却像“自说自话”，只顾看自己刚写的字（比如前面解释的“因为##”），完全忘了原文在说啥！

最后一层注意力图对比

最后一层注意力图对比

注意力回溯比率对比

注意力回溯比率对比

检测后门：用“小作文”当线索

作者还尝试用解释文本训练分类器，结果GPT-4o和传统模型都能高效区分正常和后门样本（准确率最高98.8%）！这说明，后门攻击不仅影响输出，连解释都会“露馅”！

后门检测分类器性能表

后门检测分类器性能表

结论

这篇论文就像给LLM装了个“测谎仪”——通过让模型自己写解释，成功揪出后门攻击的破绽！实验证明，后门样本的解释不仅逻辑混乱，还会暴露触发器的存在（比如直接说“因为##”）。更厉害的是，作者还发现后门攻击会改变模型的“思考模式”：注意力乱飘、标签词拖到最后一刻才决定……这些发现为未来的安全检测提供了新思路！

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。