文献综述:Machine Unlearning: A Survey

摘要

    摘要:机器学习的快速发展和广泛应用使得个人隐私和数据保护成为重要关注领域。机器遗忘是一项关键技术,旨在从机器学习模型中删除已学习的信息,以保护敏感数据。本文提供了对机器遗忘的综合调查,涵盖了不同的遗忘方法、度量和应用领域。我们介绍了常用的机器遗忘算法,包括重训练、增量学习、反向梯度和基于生成对抗网络的方法。此外,我们还讨论了机器遗忘的挑战和限制,并探讨了遗忘效果的评估方法。最后,我们探讨了机器遗忘在个人数据管理、医疗保健和金融领域的实际应用。通过该调查,我们希望为研究人员和从业者提供关于机器遗忘的全面了解,并促进该领域的进一步发展。

关键词:机器遗忘、机器学习、个人隐私、数据保护、遗忘算法、遗忘度量、应用领域

介绍

    近年来,机器学习在人工智能(AI)的各个领域取得了显著的进展和广泛的探索[1]。然而,随着AI变得越来越依赖数据,越来越多的因素,如隐私问题、法规和法律,导致了一种新的需求——删除信息。具体而言,相关方要求从训练数据集中删除特定样本,并从已经训练的模型中删除这些样本的影响[2-4]。这是因为成员推断攻击[5]和模型逆推攻击[6]可以揭示关于训练数据集具体内容的信息。更重要的是,全球各地的立法者明智地颁布了授予用户被遗忘权的法律[7, 8]。这些法规包括欧盟的《通用数据保护条例》(GDPR)[9]、加州消费者隐私法(CCPA)[10]、个人信息保护法(APPI)[11]以及加拿大拟议的《消费者隐私保护法》(CPPA)[12],要求删除私人信息。

1.1 机器遗忘的动机

    机器遗忘(也称为选择性遗忘、数据删除或擦除)要求能够从训练数据集和已训练模型中完全且快速地删除样本及其影响[13–15]。图1展示了一个训练模型进行机器遗忘的示例。
在这里插入图片描述

    机器遗忘不仅受到法规和法律的推动,还源于数据提供者的隐私和安全关切,以及模型所有者自身的要求。事实上,从模型中删除异常训练样本的影响将提高模型的性能和鲁棒性[16]。存在着与机器遗忘类似的现有数据保护技术,但它们在目标或原理上有所不同。
    在这里,我们简要讨论当前技术与机器遗忘之间的主要区别。

  • 差分隐私。差分隐私[17, 18]确保在观察模型输出时,无法确定样本是否在训练数据集中。该技术确保每个样本对最终模型的贡献有一个微妙的界限[19, 20],但机器遗忘的目标是删除特定用户的训练样本。
  • 数据屏蔽。数据屏蔽[21]旨在隐藏原始数据集中的敏感信息。它将敏感数据进行转换,以防止其在不可靠环境中被披露[22]。相比之下,机器遗忘的目标是防止训练模型泄漏有关其训练样本的敏感信息。
  • 在线学习。在线学习[23]根据反馈过程中的数据快速调整模型,以便模型能够及时反映在线变化。在线学习与机器遗忘之间的一个主要区别是,前者需要进行合并操作以合并更新,而机器遗忘是一种逆操作,在接收到遗忘请求时消除这些更新[24]。
  • 灾难性遗忘。灾难性遗忘[25, 26]指的是在为新任务微调模型时,先前学习的任务性能显著下降。灾难性遗忘导致深度网络失去准确性,但它所使用的数据信息仍然可以通过分析权重进行访问[27],因此不满足机器遗忘所需的条件。
        当用户撤销对某些训练数据的权限时,仅仅从原始训练数据集中删除这些数据是不够的,因为攻击者仍然可以从已训练的模型中揭示用户信息[28]。一种完全从模型中删除信息的直接方法是从头重新训练它(图1中的重新训练过程)。然而,许多复杂模型是建立在大量样本上的。重新训练通常是一个计算上昂贵的过程[29, 30]。此外,在某些特定的学习场景中,如联合学习[31, 32],训练数据集可能无法访问,因此根本无法进行重新训练。因此,为了减少计算成本并使机器遗忘在所有情况下都成为可能,需要提出新的技术(图1中的遗忘过程)。

1.2 本论文的贡献

    机器遗忘在许多应用中发挥了重要作用[33, 34]。然而,其实施和验证策略仍未完全探索。在这个领域中存在着各种概念和多种验证方案,机器遗忘与其他技术之间的界限不清晰。这些现象激发了我们编制一份综合调查报告,总结、分析和分类机器遗忘技术。在这个调查中,我们的目标是找到一种清晰的方式来呈现机器遗忘中的思想和概念,展示它们的特点并突出它们的优势。此外,我们提出了一种新颖的分类法来对最新文献进行分类。我们希望这个调查为希望了解这个领域的读者提供深入的概览,同时也为推动创新和拓宽研究视野提供了一个基础。本文的主要贡献如下:

  • 我们基于机器遗忘的原理和遗忘策略提出了一种新颖的分类法,对当前机器遗忘技术进行了分类。
  • 我们全面总结了基于提出的分类法的最新遗忘方法,展示了它们的优点和缺点。
  • 我们在分类法中总结了机器遗忘的验证方法,并与相关的遗忘技术一起审查了它们的实施情况。
  • 我们对机器遗忘中的开放问题进行了批判性和深入的讨论,并指出了可能的进一步研究方向。

1.3 与机器遗忘方面现有调查的比较

    已经有一些工作对机器遗忘进行了总结。然而,其中很少有工作提供对当前研究的深入和全面的洞察。在这里,我们介绍一些相关的工作供参考。表1总结了这些参考文献的比较。

在这里插入图片描述

  • Thanh等人[35]总结了机器遗忘的定义、遗忘请求类型以及不同的设计要求。他们还根据可用的模型和数据提供了现有遗忘方案的分类。
  • Saurabh等人[36]分析了机器学习中隐私泄露的问题,并简要描述了如何使用潜在方法来实现“被遗忘权”。
  • Anvith等人[37]讨论了遗忘背后的语义,并基于逻辑、权重和权重分布回顾了现有的遗忘方案。他们还简要描述了机器遗忘的部分验证方案。
        除了在表1中的差异外,这份调查在几个方面与上述参考文献有所不同。首先,我们提供了对每种遗忘方案的全面分析,以及相应的验证策略,因为验证问题是未来研究中的一个重要指标。这是与上述参考文献的显著区别,因为现有的工作只是回顾了每个工作中使用的遗忘方案。其次,我们通过多个维度对每种遗忘方案进行了回顾和比较,例如是否需要原始训练数据,是否需要缓存中间数据,哪些类别和模型支持遗忘请求等等。此外,我们还分析了我们分类方案中每个类别的共性和问题,总结了趋势、缺点和潜在解决方案,这些在上述工作[35-37]中尚未完全讨论。

    我们的工作还涉及隐私保护和优化的多个关键领域,涵盖差分隐私、数据掩码、凸优化等主题。相比之下,现有的调查主要集中在总结机器遗忘中使用的方法,忽略了遗忘策略与验证技术之间的关系。与我们的工作最相似的是[35],然而,它更详细地阐述了遗忘框架及其应用场景,而我们特别强调了遗忘策略和验证。此外,我们探讨了机器遗忘的可能趋势,并总结了最新的研究进展和可能涉及的技术,包括普适性和安全性等,并提出了几个具体的研究方向。这些也没有在上述参考文献[35-37]中提供。
在这里插入图片描述
原文:https://arxiv.org/abs/2306.03558

  • 24
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

thinkerCoder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值