【论文笔记】Towards Making Systems Forget with Machine Unlearning

本篇论文的重点

通过将系统使用到的机器学习算法转换成求和的形式,提出了一种通用的,有效的遗忘学习算法。其中通用性表现在求和形式来自SQ learning,可以实现许多机器学习算法;有效性表现在此方法无需从头重新训练模型,仅需要更新少量的求和项。

算法原理图

在这里插入图片描述
将学习算法转换为求和形式(右)。具体来说,每个求和是变换数据样本的总和,其中变换函数 g i g_{i} gi是可有效计算的。要忘记数据样本,只需更新总和,然后计算更新后的模型。

创新性

虽然先前的工作为几种特定的学习算法提出了增量机器学习 [31,62,73],但本文工作的主要区别在于,提出了一种适用于任何可以转换为求和形式的算法的通用高效遗忘学习方法,包括一些目前没有增量版本,例如归一化余弦相似度和一类 SVM。此外,本文的遗忘学习方法处理机器学习算法的所有阶段,包括特征选择和模型构建。本文还将提出的遗忘算法在真实系统上进行了实验评估。

算法步骤

第一步:首先,更新一组选定的特征。此步骤的输入是要忘记的样本、旧特征集以及先前为推导旧特征集而计算的总和。输出是更新的特征集和总和。例如,Zozzle 使用卡方检验选择特征,该检验基于四个计数(最简单的求和形式)对特征进行评分:有多少恶意或良性样本包含或不包含此特征。为了遗忘某些样本,只更新这些计数以排除该样本,重新对特征进行评分,并选择得分最高的特征作为更新的特征集。

第二步:其次,遗忘学习更新模型。此步骤的输入是要忘记的样本、旧特征集、更新后的特征集、旧模型以及先前为推导旧模型而计算的总和。输出是更新的模型和总和。如果从特征集中删除了一个特征,只需从模型中拼接出该特征的数据。如果添加了一个特征,则在模型中计算它的数据。对于使用朴素贝叶斯将数据分类为恶意或良性的 Zozzle,总和是使用第一步中记录的计数计算的概率(例如,训练数据样本在包含特定特征的情况下是恶意的概率)。因此,更新概率和模型非常简单,而且比重新训练要快得多。

算法举例

1.非自适应的SQ 学习:所有 SQ 在算法开始之前预先确定,SQ 的数量是恒定的,记为 m,而变换 g 函数是固定的,记为 g 1 、 g 2 . . . g m g_{1}、g_{2}...g_{m} g1

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值