机器遗忘(Machine Unlearning, MU)是一项重要的人工智能技术,旨在从预训练模型中移除特定数据点、类别或概念的影响,而无需从头重新训练整个模型。随着数据隐私保护法规的不断演进,MU在当今AI模型中发挥着越来越重要的作用,有助于增强用户对AI系统的信任度和安全性。然而,现有的MU方法在遗忘准确性、稳定性和跨领域适用性等方面仍存在一些局限性。为了应对这些挑战,本文提出了一种创新的MU方法 - 显著性遗忘(Saliency Unlearning, SalUn),通过引入"权重显著性"的概念来提高MU的有效性和效率。
1. 研究背景与挑战
1.1 机器遗忘的重要性
MU技术最初是为了应对数据保护法规中的"被遗忘权"而提出的。随着AI技术的快速发展,MU的应用范围迅速扩大,在计算机视觉领域面临诸多挑战,包括:
- 防御后门投毒攻击
- 提高模型公平性
- 改进预训练方法以增强迁移学习能力
- 防止文本到图像生成模型产生敏感、有害或非法的图像内容
1.2 现有MU方法的局限性
现有的MU方法大致可分为两类:精确/认证MU和近似MU。
精确/认证MU方法(如差分隐私强制遗忘和认证数据移除)专注于开发具有可证明错误保证或遗忘认证的方法。其中,精确遗忘(即在移除遗忘数据集后从头重新训练模型)通常被视为MU的黄金标准。然而,基于重新训练的精确遗忘方法需要大量计算资源,对于当今的大规模ML模型(如本文考虑的基于扩散的生成模型)变得具有挑战性。
相比之下,近似遗忘作为一种更实用的方法出现,用于"快速"和"准确"的遗忘。虽然其准确性可能无法满足可证明的保证,但可以使用更广泛的实用指标(如成员推理攻击)进行评估,而无需通常与认证遗忘相关的数据模型或算法假设。尽管具有实用性和效率的优点,但近似遗忘的性能仍可能表现出显著的方差。例如,基于影响函数分析的影响力遗忘方法由于影响函数近似所需的超参数选择以及特定的遗忘场景和评估指标,表现出高性能方差,从而引发了对近似遗忘方法不稳定性的担忧。其他近似遗忘方法(包括Fisher遗忘、梯度上升和基于微调的方法)也面临类似的挑战。
此外,上述许多MU方法主要应用于图像分类。相比之下,用于生成建模的新兴扩散模型(DMs)也需要有效的MU技术来保护版权并防止生成有害内容。然而,正如本文将证明的那样,为图像分类设计的现有MU方法不足以解决图像生成中的MU问题。
2. SalUn方法
为了解决现有MU方法的局限性,本文提出了一种创新的MU范式:“权重显著性”。类比于模型解释中的输入显著性,这一思想将MU的焦点从整个模型转移到特定的、有影响力的权重上。这种集中注意力的方法可以增强多种MU方法的性能,即使是简单的方法(如随机标记)也能受益。
2.1 基于梯度的权重显著性图
权重显著性的概念源于最近的研究表明,现代ML模型在一定程度上表现出模块化特征。模块化指的是将大型ML模型分解为可管理的子部分的属性,每个子部分都可以更容易地独立维护和更新。特别是,权重稀疏性已被认为是模块化的一个重要驱动因素,导致ML在效率、可解释性和鲁棒性等方面的改进。
在MU的背景下,权重稀疏性也被用来促进遗忘过程,导致了l1-稀疏遗忘
基线方法的提出。然而,权重稀疏性在应用于MU时遇到了某些限制:
- 确定ML模型(如DM)的适当稀疏模式本身就是一项具有挑战性的任务。
- 即使可以实现稀疏性,由于观察到性能下降,某些应用可能不喜欢在MU之后交付稀疏模型。
基于上述讨论,SalUn方法旨在识别一种与权重稀疏性不同的替代机制,可以将MU的焦点引导到被认为对MU重要的特定模型权重上。受梯度基输入显著性图的启发,SalUn提出了基于梯度的权重显著性图的概念。
具体来说,给定原始模型参数 θ o \theta_o θo、遗忘数据集 D f D_f Df 和损失函数 l f l_f lf,SalUn定义了一个二元掩码 m s m_s ms:
m s = 1 ( ∣ ∇ θ l f ( θ o ; D f ) ∣ ≥ γ ) m_s = \mathbb{1}(|\nabla_{\theta} l_f(\theta_o; D_f)| \geq \gamma) ms=1(∣∇θlf(θo;Df)∣≥γ)
其中 γ \gamma γ 是一个阈值参数,用于控制显著性图的稀疏度。这个掩码 m s m_s ms 实际上是一个权重显著性图,它指示了哪些模型参数对遗忘过程最为重要。
2.2 SalUn算法流程
基于上述权重显著性图,SalUn算法的主要步骤如下:
-
计算权重显著性图 m s m_s ms。
-
执行参数更新:
θ u = θ o − η ⋅ m s ⊙ ∇ θ l f ( θ o ; D f ) \theta_u = \theta_o - \eta \cdot m_s \odot \nabla_{\theta} l_f(\theta_o; D_f) θu=θo−η⋅ms⊙∇θlf(θo;Df)
其中 η \eta η 是学习率, ⊙ \odot ⊙ 表示逐元素相乘。
-
对更新后的模型 θ u \theta_u θu 进行微调,以恢复在剩余数据集 D r D_r Dr 上的性能。
这种方法的关键优势在于,它只更新那些对遗忘过程最重要的参数,从而提高了MU的效率和有效性。
3. 实验结果
为了验证SalUn方法的有效性,作者进行了大量实验,涵盖图像分类和图像生成两个任务。
3.1 图像分类任务
在CIFAR-10数据集上,SalUn与7种MU基线方法进行了比较。结果显示:
-
稳定性优势:在高方差随机数据遗忘中,SalUn与精确遗忘的差距仅为0.2%,明显优于其他方法。
-
性能提升:SalUn在各种评估指标(如遗忘准确率、剩余准确率、测试准确率和成员推理攻击防御)上都取得了显著改善。
-
计算效率:相比精确遗忘,SalUn大大减少了计算时间,同时保持了接近的性能。
3.2 图像生成任务
在条件扩散模型上,SalUn与2种概念擦除基线进行了比较。结果表明:
-
高效遗忘:在防止条件扩散模型生成有害图像方面,SalUn实现了接近100%的遗忘准确率,明显优于现有的最先进基线(如Erased Stable Diffusion和Forget-Me-Not)。
-
生成质量保持:SalUn在移除不需要的概念(如"裸体")的同时,仍然保持了对其他正常概念的高质量图像生成能力。
-
跨领域适用性:SalUn展示了在不同类型的扩散模型(如DDPM和LDM)上的良好泛化能力。
4. 结论与展望
SalUn方法通过引入权重显著性的概念,为机器遗忘领域带来了新的视角和解决方案。它不仅克服了现有MU方法在稳定性和泛化性上的局限,还在图像分类和生成两个重要任务上都取得了出色的表现。这种方法为构建更可信、更安全的AI系统提供了重要工具。
未来的研究方向可能包括:
- 探索SalUn在其他AI任务(如自然语言处理)中的应用。
- 进一步优化权重显著性图的计算方法,以提高效率和准确性。
- 结合其他先进技术(如元学习、联邦学习等)来增强SalUn的性能。
- 研究SalUn在更大规模模型和数据集上的表现。
总之,SalUn为机器遗忘领域开辟了新的研究方向,有望推动AI系统在隐私保护、公平性和安全性等方面取得进一步突破。
参考文献
-
Fan, C., Liu, J., Zhang, Y., Wong, E., Wei, D., & Liu, S. (2024). SalUn: Empowering Machine Unlearning via Gradient-Based Weight Saliency in Both Image Classification and Generation. In International Conference on Learning Representations (ICLR).
-
Hoofnagle, C. J., van der Sloot, B., & Borgesius, F. Z. (2019). The European Union general data protection regulation: what it is and what it means. Information & Communications Technology Law, 28(1), 65-98.
-
Graves, L., Nagisetty, V., & Ganesh, V. (2021). Amnesiac machine learning. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, No. 13, pp. 11516-11524).
-
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684-10695).
-
Schramowski, P., Joshi, S., Xia, W., Meunier, L., Ndousse, K., Kuo, Y. H., … & Lehmann, J. (2023). Investigating the unsolved mysteries of gpt-hallucination. arXiv preprint arXiv:2307.03027.