【论文笔记】Towards Making Systems Forget with Machine Unlearning

疯狂的小猴子h

已于 2022-06-26 10:44:11 修改

阅读量605

点赞数 1

文章标签：算法机器学习人工智能

于 2022-06-22 01:23:24 首次发布

本文链接：https://blog.csdn.net/lasetd/article/details/125400828

版权

这篇论文提出了一种通用的机器学习遗忘算法，适用于可转换为求和形式的算法，如SQ学习。该方法无需从头训练，仅更新部分求和项即可遗忘数据。在LensKit、Zozzle等系统上的实验展示了遗忘的完整性和及时性，但可能影响模型预测性能，且需要精确确定遗忘样本。

摘要由CSDN通过智能技术生成

Towards Making Systems Forget with Machine Unlearning

本篇论文的重点
算法原理图
创新性
算法步骤
算法举例
评估指标和实验结果
可能存在的问题

本篇论文的重点

通过将系统使用到的机器学习算法转换成求和的形式，提出了一种通用的，有效的遗忘学习算法。其中通用性表现在求和形式来自SQ learning，可以实现许多机器学习算法；有效性表现在此方法无需从头重新训练模型，仅需要更新少量的求和项。

算法原理图

在这里插入图片描述
将学习算法转换为求和形式（右）。具体来说，每个求和是变换数据样本的总和，其中变换函数 $g_{i}$ 是可有效计算的。要忘记数据样本，只需更新总和，然后计算更新后的模型。

创新性

虽然先前的工作为几种特定的学习算法提出了增量机器学习 [31,62,73]，但本文工作的主要区别在于，提出了一种适用于任何可以转换为求和形式的算法的通用高效遗忘学习方法，包括一些目前没有增量版本，例如归一化余弦相似度和一类 SVM。此外，本文的遗忘学习方法处理机器学习算法的所有阶段，包括特征选择和模型构建。本文还将提出的遗忘算法在真实系统上进行了实验评估。

算法步骤

第一步：首先，更新一组选定的特征。此步骤的输入是要忘记的样本、旧特征集以及先前为推导旧特征集而计算的总和。输出是更新的特征集和总和。例如，Zozzle 使用卡方检验选择特征，该检验基于四个计数（最简单的求和形式）对特征进行评分：有多少恶意或良性样本包含或不包含此特征。为了遗忘某些样本，只更新这些计数以排除该样本，重新对特征进行评分，并选择得分最高的特征作为更新的特征集。

第二步：其次，遗忘学习更新模型。此步骤的输入是要忘记的样本、旧特征集、更新后的特征集、旧模型以及先前为推导旧模型而计算的总和。输出是更新的模型和总和。如果从特征集中删除了一个特征，只需从模型中拼接出该特征的数据。如果添加了一个特征，则在模型中计算它的数据。对于使用朴素贝叶斯将数据分类为恶意或良性的 Zozzle，总和是使用第一步中记录的计数计算的概率（例如，训练数据样本在包含特定特征的情况下是恶意的概率）。因此，更新概率和模型非常简单，而且比重新训练要快得多。

算法举例

1.非自适应的SQ 学习：所有 SQ 在算法开始之前预先确定，SQ 的数量是恒定的，记为 m，而变换 g 函数是固定的，记为 $g_{1}、g_{2}...g_{m}$

最低0.47元/天解锁文章

疯狂的小猴子h

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫