机器遗忘论文解读:Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks Using anIncompetent Teacher

Research questions:

  1. forgetting single-class or multiple classes of data
  2. forgetting a cohort of data from a single class 
  3. forgetting a random subset of data from multiple classes
  4. how well the unlearned model has generalized the forgetting?

遗忘单个类别的数据:假设模型被训练识别CIFAR-10中的所有10个类别。现在出于某种原因,我们需要从模型中完全遗忘掉“猫”这一类别的所有数据。

遗忘单个类别中的一个数据群体:在CIFAR-10中,我们想要遗忘“狗”这一类别中特定的一组图像,可能是因为这些图像不再被认为是“狗”或由于其他原因。

遗忘多个类别中的随机子集:由于数据隐私的考虑,我们需要从模型中移除多个类别中特定的一些图像的影响。比如文中的CIFARSuper20,People中遗忘Baby子类。

主要贡献:

  1. 提出了一个由能干和不够能干的教师组成的师生框架。对学生的选择性知识传递导致了未学习模型的生成。该方法适用于单类别和多类别的遗忘学习,同时也有效地适用于多类别随机子集的遗忘。
  2. 提出了一个新的无需重新训练模型的评估指标,称为零重训练遗忘(ZRF)指标,用以稳健地评估遗忘方法。这也有助于评估在遗忘数据上未学习模型的泛化能力。
  3. 适用于不同类型的深度网络,如CNN(卷积神经网络)、视觉变换器和LSTM(长短期记忆网络)。与现有方法不同,我们的方法不对训练过程施加任何约束。

其最大的贡献是不依赖retain模型来对student模型进行评估。并且构建了一个新的师生框架来进行机器遗忘。

Proposed Method:

使用两个教师(能干和不够能干)和一个学生来移除请求数据点的信息。

学生模型以完整数据的知识初始化,即完全训练过的模型的参数。

这个想法是从这个模型中有选择性地移除有关遗忘样本的信息。同时,与保留集相关的信息不应该被干扰。

如图 1 所示。来自不够能干教师 Td 的关于 Df 的坏知识传递给学生,帮助学生忘记 Df 样本。

这样的方法因此在学生中引入了关于遗忘集的随机知识,而不是完全使它们的预测准确度为零。

来自 Td 的坏(随机)输入可能会不可避免地破坏学生中关于保留集 Dr 的一些信息。因此,从能干教师 Ts 那里借用有关 Dr 的正确知识。

两个相同的KLD知识蒸馏,用lu的值区分遗忘集和保留集。在一个loss上加个判断,其实一个样本还是只是一个KLD损失,没有综合损失。不过文中的保留集只用了30%

Zero Retrain Forgetting Metric(ZRF) 

提出了一个新颖的“零重训练遗忘指标”(Zero Retrain Forgetting Metric,ZRF)来使遗忘方法的评估不依赖于重新训练的模型。它通过将模型的预测与不够能干教师 T_d​ 进行比较来衡量模型预测的随机性。

假设有一个飞机类,如果遗忘波音飞机,我们不期望模型现在将它们分类为动物、蔬菜或任何其他完全不相关的类别。

我们仍然期望大多数这些未学习的图像被分类为飞机,因为模型必须是在考虑泛化的情况下设计和训练的。

一个让飞机类的泛化错误表现比泛化错误还要差的遗忘方法实际上并不是遗忘,它只是在教模型在看到波音飞机时始终不正确。

当模型几乎总是将波音飞机分类为动物或其他完全不同的类别时,ZRF分数为0。如果模型总是以同样的随机概率将所有类别分类为波音飞机,ZRF将为1。

这两种情况(∼0或∼1)都不是我们想要的结果。文章希望未学习的模型具有与未训练波音飞机的模型类似的泛化性能。

个人认为作者对于这个标准说的过于美化了:

  • JS散度为0表示两个概率分布完全相同。
  • JS散度为1表示两个概率分布完全不同。

作者取了一个JSD的倒数.

  • ZRF为1表示与随机模型概率分布完全相同。
  • ZRF为0表示与随机模型概率分布完全不同。

跟随机化模型输出差不多,ZRF分数为1.随机化模型理想情况(假设4个类)[025,025,0.25,0.25]模型压根分类不出来这是什么

ZRF为0表示跟随机化模型输出差不多概率分布完全不一样。随机化模型理想情况(假设4个类)[025,025,0.25,0.25],学生模型分布为[1, 0, 0, 0]。分布1 表示四个事件发生的概率是均等的,而分布 2 表示第一个事件肯定发生,其他事件不会发生。
个人并不认为这个ZRF有实际意义,因为没有一个明确的标准。只能间接证明该模型对该样本的分布的随机性如何,但是随机模型每次随机出来都是不一样的,输出也略有不同,分数会不断波动。在实际使用中问题很大。而且作者拿学生模型直接与随机模型做KLD,然后再用ZRF来评分,实验结果分析中对比是ZRF越大越好,这不是相当于我用训练数据来评估模型准确度吗?

说实话这结果好,KLD知识蒸馏恢复绝对功不可没。

  • 22
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值