Black-Box Attacks on Sequential Recommenders via Data-Free ModelExtraction

研究揭示了模型提取可用于攻击顺序推荐系统,即使在无数据的环境下也能创建与原始模型相似的副本。通过利用推荐系统的自回归特性,生成合成数据进行模型提取,随后执行下游攻击,如轮廓污染和数据中毒。实验表明,这种方法对序列推荐模型构成威胁,特别是在模型提取和数据中毒攻击方面表现出有效性。
摘要由CSDN通过智能技术生成

摘要

我们研究了模型提取是否可以用来“窃取”顺序推荐系统的权值,以及对此类攻击的受害者构成的潜在威胁。这种风险在图像和文本分类中引起了关注,但据我们所知,在推荐系统中却没有。我们认为,序列推荐系统由于特定的自回归机制,受到独特的弱点

(自回归预测法(Autoregression,AR)是指,利用预测目标的历史时间数列在不同时期取值之间存在的依存关系(即自身相关),建立起回归方程进行预测。

具体说,就是用一个变量的时间数列作为因变量数列,用同一变量向过去推移若干期的时间数列作自变量数列,分析一个因变量数列和另一个或多个自变量数列之间的相关关系,建立回归方程进行预测。

再通俗一点讲,就是用过去时间点的数据预测未来时间点的数据。)

与许多现有的推荐攻击者假设用于训练受害者模型的数据集暴露于攻击者不同,我们考虑了一个无数据的设置,其中训练数据是不可访问的。在此设置下,我们提出了一种基于api的模型提取方法(攻击者在没有任何关于该模型的先验知识(训练数据,模型参数,模型类型等)情况下,只利用公共访问接口对该模型的黑盒访问,从而构造出和目标模型相似度非常高的模型。

通过有限预算的合成数据生成和知识蒸馏。我们研究了最先进的顺序推荐模型,并显示了它们在模型提取和下游攻击下的漏洞。

我们分两个阶段进行攻击。(1)模型提取:给定从黑盒推荐中检索到的不同类型的合成数据及其标签,我们通过蒸馏法将黑盒模型提取为白盒模型。(2)下游攻击:我们用由白盒推荐器生成的对抗性样本来攻击黑盒模型。实验表明,在轮廓污染和数据中毒条件下,无数据模型提取和下游攻击的有效性。

1介绍

模型提取攻击[26,40]尝试创建一个机器学习模型的本地副本,只允许访问一个查询API。模型提取暴露了敏感的训练信息泄漏[40]和对抗性示例攻击[32]等问题。近年来,这一课题在图像分类[18,30,32,46]和文本分类[20,31]中引起了人们的关注。在本工作中,我们证明了模型提取攻击也对顺序推荐系统构成了威胁。

序列模型是一个流行的个性化推荐框架,通过捕捉用户的兴趣和项目到项目的转换模式。近年来,各种基于神经网络的模型,如RNN和CNN框架(如GRU4Rec[13],Caser[38],NARM[25])和变压器框架(如SASRec[17],BERT4Rec[37])被广泛使用,并始终优于非顺序[12,34]和传统的顺序模型[11,35]。然而,对推荐者的攻击研究较少,并且有一定的局限性:(1)少数攻击方法是为顺序模型量身定制的。通过对抗性机器学习的攻击在一般推荐设置中取得了[4,6,39]设置的最先进的水平,但实验是在矩阵分解模型上进行的,很难直接应用于顺序推荐;虽然一些模型不可知的攻击[2,22]可以用于顺序设置,但它们严重依赖于启发式,其有效性往往有限;(2)许多攻击方法假设受害者模型的完整训练数据暴露给攻击者[4,6,24,39,44]。这些数据可以被攻击者用来训练代理本地模型。然而,这种设置是相当严格的(或不现实的),特别是在隐式反馈设置(例如,点击,视图)中,攻击者将非常难以获得数据。

我们考虑一个无数据的设置,其中没有原始的训练数据可用来训练一个代理模型。也就是说,我们构建了一个代理模型,没有真实的训练数据,但有有限的API查询。我们首先对我们的代理(白盒)顺序推荐器构建下游攻击,然后将攻击转移到受害者(黑盒)推荐器

顺序推荐器的模型提取提出了几个挑战:(1)无法访问原始训练数据集;(2)与图像或文本任务不同,我们不能直接使用语义相似的代理数据集;(3)api通常只提供排名(而不是概率),查询预算有限。考虑到这些挑战,顺序推荐者似乎相对安全。然而,注意到顺序推荐者通常以自回归的方式训练(即基于之前的方式预测序列中的下一个事件),我们的方法表明推荐者本身可以用来生成类似于“真实”数据分布的训练数据的顺序数据。有了这个特性和一个采样策略:可以构建(1)“假”训练数据,使顺序推荐者容易被模型提取;(2)来自有限数量的API查询的“假”数据可以类似于正常的用户行为,这很难检测

给定提取的代理模型,将执行下游攻击(参见图1)。但是针对顺序推荐者的攻击方法很少有[44]。在这项工作中,我们提出了两种攻击方法,分别针对当前的顺序推荐,包括轮廓污染攻击(通过“添加”项目到用户的日志来操作)和数据中毒攻击(生成“假”用户以使重新训练的模型产生偏差)。在黑盒顺序模型返回排名前k位的情况下,我们广泛地评估了我们的策略的有效性。

2个相关的工作

2.1在图像和文本任务中的模型提取

在[26,40]中提出了模型提取攻击,通过“窃取”模型权重来制作一个局部模型副本[18,20,30-32,46]。以前的工作通常与图像分类有关。为了提取目标模型的权重,JBDA[30]和克隆集[32]假设攻击者可以访问部分训练数据或具有语义的代理数据集的复数形式最近,在无数据环境中提出了一些方法。DaST[46]采用多分支生成对抗网络[7]生成合成样本,然后用目标模型进行标记。MAZE[18]生成的输入可以使攻击者和目标模型之间的分歧最大化。MAZE使用零阶梯度估计来优化发电机模块,以实现精确的攻击。由于输入空间的离散性,上述方法不能直接传输到顺序数据中。对于自然语言处理(NLP)系统THIEVES [20]研究了基于bert的api[5]的模型提取攻击。尽管NLP存在对基于bert的模型的攻击,作者发现随机单词序列和代理数据集(例如维基文本-103[28]),既可以创建有效的查询和检索标签来接近目标模型,我们发现(1)在推荐中,很难使用语义相似的代理数据集(这在NLP中很常见);我们也采用随机项目序列作为基线,但它们的模型提取性能有限。因此,我们根据顺序推荐的自回归特性生成数据;(2)与自然语言处理相比,在推荐中很难提取“排序”(而不是分类)。我们设计了一个成对的排名损失来解决挑战;模型提取后的(3)下游攻击没有得到充分的探索,特别是在推荐方面,所以我们的工作在这方面也做出了贡献。

2.2对推荐系统的攻击

现有的工作[15,42]将对推荐系统的攻击分类为轮廓污染攻击和数据中毒攻击,分别在测试阶段和训练阶段影响推荐系统。

配置文件污染攻击旨在污染目标用户的配置文件(例如他们的视图历史记录),以操作特定用户的推荐结果。例如,[41]使用跨站点请求伪造(CSRF)技术[43]将“假”用户视图注入到真实世界网站的目标用户日志中,包括YouTube、亚马逊和谷歌搜索。然而,在[41]中使用的决定应该注入哪些“假”物品的策略是一种简单的启发式策略,而不需要受害者推荐者的知识。在我们的工作中,考虑到我们可以提取受害者推荐权值,我们可以研究更有效的攻击,如一般机器学习[8,21,32]中的逃避攻击。注意,在我们的工作中,我们假设我们可以添加到目标用户日志与注入攻击通过植入恶意软件[23,33],项目交互可以代表用户,因此,我们专注于注入算法设计和攻击可转移性(恶意软件开发和活动注入网络安全任务和超出我们的研究范围)。

数据2,22](即,它们不考虑模型架构的特征),但它们严重依赖于启发式,并经常限制它们的有效性。同时,还针对特定的推荐体系结构提出了中毒攻击方案中毒攻击(a.k.a.先令攻击[9,22])从一些假用户那里产生评级,以毒害训练数据。一些中毒方法是推荐不可知的[。例如,[4,24,39]为矩阵分解推荐和[42]基于共访问的推荐提出了毒算法。近年来,随着深度学习被广泛应用于推荐,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值