2024年2月26日到3月1日,网络安全领域“四大顶会”之一 Network and Distributed System Security Symposium(NDSS 2024)在美国圣迭戈举办。浙江大学计算机学院 ARClab 实验室与蚂蚁集团合作的论文“LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors”在本次会议录用的140篇论文中脱颖而出,斩获大会杰出论文奖(Distinguished Paper Award),仅4篇论文获此殊荣。
值得一提的是,该论文的研究也为蚂蚁集团切实解决行业大模型在实际应用中存在的隐私和安全问题带来了重要价值,弥补了 NLP 预训练模型领域后门检测和防御的空白,我们也会在后文中进行具体分享。
此外,蚂蚁集团在 2024 NDSS 会议中,主办了以隐私计算为主题的 Birds of a Feather session。在本次 BoF 中,来自蚂蚁集团隐语团队的两位技术专家崔锦铭与马俊明分享了主流隐私计算技术以及隐语的密态计算引擎 SPU,与国际学术界及产业界专家共同交流隐私计算技术的前沿实践与行业场景探索。
接下来,就让蚂蚁集团与您一起走近 NDSS,了解“Distinguished Paper Award”的干货分享,回顾学术与产业碰撞的精彩时刻!
Part.1 关于NDSS
NDSS 全称为网络与分布式系统安全会议(Network and Distributed System Security Symposium),是由 ISOC 举办的网络与分布式系统安全领域最重要的学术会议之一,自1993年以来已连续开办三十余届。NDSS 与 IEEE S&P、CCS、Usenix Security 并称为网络安全领域的“四大顶会”(BIG4),同时也是中国计算机学会推荐的 A 类会议,论文录用率常年保持在17%左右,具有较高的学术影响力。
Part.2 关于获奖论文
论文标题:LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors
论文作者:魏成坤、孟文龙、张治坤、陈敏、赵明虎、方文静、王磊、张紫徽、陈文智
关键词:提示学习、后门检测、后门防御、预训练模型安全
论文摘要:提示学习已经成为部署大规模语言模型的一个吸引人的范式,因为它在下游任务性能和高效的多任务服务能力方面表现强大。尽管它被广泛采用,我们通过实验研究,发现提示学习容易受到下游任务无关的后门攻击,这些后门存在于预训练模型中,并且可以影响任意下游任务。由于这些后门触发器很难被逆转,最先进的后门检测方法无法防御这种下游任务无关的后门。
为了解决这个问题,我们提出一种全新的方法 LMSanitator,用于检测并移除 Transformer 模型的下游任务无关后门。LMSanitator 的目标不是直接逆转触发器,而是逆转预定义的攻击向量(当输入嵌入触发器时,预训练模型的输出),这样做在收敛性能和后门检测准确度上取得了更好的成果。LMSanitator 进一步利用提示学习的特性——冻结预训练模型,以在推理阶段进行准确快速的输出监控和输入清洗。在多个语言模型和自然语言处理任务上的广泛实验展示了 LMSanitator 的有效性。例如,LMSanitator 在 960 个模型上达到了 92.8% 的后门检测准确度,并且在大多数情况下将攻击成功率降低到了 1% 以下。
写在最后
未来,蚂蚁集团也将继续与浙江大学及众多海内外高校携手,激发产学研生态共建的无限潜力。探索数据要素流通在隐私保护及 AI 能力加持下的前沿技术,共同推动学术界与产业侧的共创与发展!
👏 欢迎添加蚂蚁技术研究院企业微信!