模型偷盗攻击可以逆向出一个和被部署的受害者模型具有相似功能的替代模型。训练一个具有良好表现的模型费时费力,因此模型偷盗会对模型所有者带来巨额损失,造成巨大威胁。
针对这种现象,本期 AI Drive,清华大学李一鸣分享其团队发布在 AAAI 2022 的成果:通过验证嵌入的外源特征防止模型窃取。
「AI Drive」是由 biendata 和 PaperWeekly 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。
在本次报告中,他们将从模型所有权验证的角度讨论如何防御模型偷盗。具体的,该研究从原理上揭示了现有方法的缺陷,并提出了一种通过验证嵌入外源特征的防御方法。该方法在保证模型精度的同时,能成功验证模型偷盗攻击的存在,且不会引入新的安全威胁。
讲者介绍:李一鸣,清华大学四年级在读博士生,师从夏树涛和江勇教授。其研究方向为 AI 安全,主要包括后门学习、对抗学习和数据隐私保护。其在 ICCV、 ECCV、 ICLR、 AAAI、Pattern Recognition 等 AI 相关顶级会议和期刊发表学术论文多篇,曾受邀担任 AAAI 2022 会议高级程序委员会成员,NeurIPS、ICML、ICLR 等会议程序委员会成员,以及 IEEE TDSC、IEEE TCSVT、IEEE TII 等期刊审稿人。曾获清华大学‘未来学者’博士奖学金、腾讯犀牛鸟精英人才等荣誉。
本文将基于以下几个主要方向展开讲解:
-
研究背景
-
现有方法的回顾和分析
-
本文所提方法
-
实验结果
一、研究背景
顾名思义,模型窃取试图获得一个和第三方受害模型具有类似功能的替代模型。例如,攻击者窃取某个被部署的第三方商业模型,希望获得一个和它具有类似效果的替代模型。当然,替代模型和原始模型可能具有不同的结构和参数。
根据攻击者的访问权限,现有的模型窃取方法可以被大致分为三个类别,包括 Dataset-Accessible, model-Accessible Attacks 和 Query-only Attacks。
在第一类攻击中,攻击者可以访问模型的训练数据集,但只能调用模型的 API 来获得输出。在这种情况下,攻击者可以通过知识蒸馏等方式进行模