【论文笔记】Efficient Label Contamination Attacks Against Black-Box Learning Models

Efficient Label Contamination Attacks Against Black-Box Learning Models

引言

本文中关于投毒攻击的定义(文中有一些举例很帮助理解):
本文重点关注二元分类模型的标签污染攻击,这是一种通常在从外部来源收集训练数据标签时发生的因果攻击。例如,可以使用众包平台(例如 Amazon Mechanical Turk)从人人那里收集标签; Netflix 依靠用户的评分来改进他们的推荐系统;协作式垃圾邮件过滤会根据最终用户的反馈定期更新电子邮件分类器,恶意用户可以在收件箱中错误地标记电子邮件,从而将虚假数据提供给更新过程。

创新性

以往中毒攻击工作的缺点:①限制了攻击者的目标以降低受害者学习模型的准确性,而实际上攻击者可能有任意目标。②专注于计算针对支持向量机 (SVM) 的攻击,攻击算法无法推广到其他受害者学习模型。③假设攻击者对受害者学习模型有充分的了解,这在现实中可能是不现实的(通常为黑盒)。
以往中毒攻击的防御一般有两条研究方向:①鲁棒学习侧重于提高学习算法在受污染数据下的鲁棒性②数据净化侧重于从训练集中去除可疑数据。大多数鲁棒学习和数据清理技术需要一组干净的数据,用于开发用于识别未来受污染数据的指标。然而,当干净的数据集难以获得或被攻击者污染时,这些技术就变得无用了。

本篇论文的贡献(目的)

①将标签污染攻击,最优攻击问题表示为一个双层优化问题,允许广泛的受害者模型和任意攻击者目标。
②利用Representer Theorem,并提出投影梯度上升 (PGA) 算法来近似求解优化问题,使目标模型对某一类样本预测错误。
③研究中毒攻击的可转移性,并利用其提出了一种基于替代模型的攻击方法来攻击黑盒学习模型。

标签污染攻击算法步骤

1.攻击者的目标:最大化 w 和 w∗ (可以理解为投毒前后目标模型的决策边界)之间夹角的余弦值
• 完整性攻击。攻击者希望控制目标模型预测的标签。例如,垃圾邮件发送者可能只想将某些垃圾邮件归类为普通邮件。
• 可用性攻击。攻击者想要降低受害者模型的准确性。例如,攻击者可能想通过降低其内置分类模型的准确性来干扰推荐系统。

2.攻击者的能力:假设攻击者最多可以翻转训练集 D 的 B 个标签。用 D ′ D^{'} D = ( x i , y i ′ ) i n = 1 {(x_{i}, y^{'}_{i})}^n_i=1 (x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值