[阅读笔记]PoisonRec: An Adaptive Data Poisoning Frameworkfor Attacking Black-box Recommender Systems

摘要

可以帮助预测用户偏好的数据驱动的推荐系统被部署在许多真实的在线服务平台上。几项研究表明,它们很容易受到数据中毒攻击,而攻击者有能力误导系统按照他们的意愿行事。考虑到现实情况,推荐系统通常是攻击者的黑盒,其中可能部署复杂的算法,如何在推荐系统上学习有效的攻击策略仍然是一个有待探索的问题。在本文中,我们提出了一个自适应的数据中毒框架,该框架可以在非常有限的知识条件下自动学习各种推荐系统的有效攻击策略。PoisonRec利用了强化学习架构,即攻击代理主动将假数据(用户行为)注入推荐系统,然后通过严格的黑盒设置下的奖励信号来改进其攻击策略。具体地说,我们将攻击行为轨迹建模为强化学习中的马尔可夫决策过程(MDP)。我们还设计了一个有偏的完全二叉树(BCBT)来重新制定动作空间,以获得更好的攻击性能。我们采用了8种广泛使用的代表性推荐算法作为我们的测试平台,并在4个不同的现实世界数据集上进行了广泛的实验。结果表明,在知识有限的情况下,对各种推荐系统具有良好的攻击性能。

1.介绍

推荐系统作为一种预测在线用户潜在偏好的数据驱动方式,在在线服务平台上发挥着越来越重要的作用。推荐系统背后的基本思想是协同过滤(CF)[1]-[3],它可以通过收集其他用户的偏好信息来帮助我们预测用户的潜在兴趣。近年来,许多推荐算法被提出,并在实际应用的[4]-[9]中取得了巨大的成功。

有一些证据表明,现有的推荐系统在数据中毒攻击(也称为先令攻击)[1],[10],[11]下是脆弱的。一些攻击者可能会将一些假数据注入推荐系统,从而使推荐系统中毒,并按照他们的意愿执行[11],[12]。推广目标项目是现实世界中推荐者中常见的攻击目标系统,之后可能会比以前更频繁地向用户推荐目标项目。例如,Yang等人[12]已经成功地执行了一些现实世界的流行服务,如Youtube和eBay,在那里部署了共访问推荐系统[12]。它对攻击者来说是有利可图的,我们在本工作中主要考虑这种项目推广问题。

在文献中,主要提出了两类攻击方法。第一类是手动设计的启发式方法,它遵循简单的规则来进行攻击,即[1]、[10]、[11]、[13]、[14]。例如,一个常见的策略是频繁地点击目标项目和另一个流行项目,这样推荐系统可能会被误导,认为目标项目与流行项目密切相关,如图1所示。然后,购买了流行商品的用户可能会收到包括目标商品在内的推荐结果。这类方法的一个明显缺点是,简单的规则不能总是在各种推荐系统上达到令人满意的攻击性能。

另一种攻击方法是基于学习的[12],即[15]-[17]。其中大多数都是专门为给定的推荐系统[12]、[15]、[16]设计的,其中部署了特定的推荐算法。此外,它们通常需要在自己的攻击背景中有强大的知识,比如显式的用户-项目交互信息[17]。

具有隐式反馈[5]的推荐系统更多实际的它们总是需要保护用户的隐私,用户的个人资料信息和与系统的交互都是保密的。出于安全原因,他们不会披露其系统组成、算法等。我们考虑这样一个现实的黑盒场景,这意味着推荐系统对攻击者是完全不可知的。很明显,攻击一个黑盒推荐系统是非常具有挑战性的。一方面,我们对推荐系统的背景知识非常有限。我们对日志数据、系统组件和推荐算法等一无所知。另一方面,系统中开发了各种算法,随着深度学习技术的发展,这些算法可能已经升级,比[3]、[6]、[9]之前要复杂得多。直接为它们各自设计有效的攻击是非常困难的,而且也很耗时的。

据我们所知,在不同的复杂黑盒推荐系统上学习有效的攻击策略仍然是一个有待探索的问题。无模型强化学习[18]-[20]可以帮助实现这一目标,但它不做任何假设,也不需要(或有限的)关于交互式环境的知识(在本工作中需要攻击的推荐系统)。受其在[21]-[24]等许多领域的成功的启发,我们将其作为我们解决方案的核心组成部分。

我们提出了一种自适应的数据中毒攻击框架。由于PoisonRec在无模型强化学习架构下与交互式推荐系统解耦,它可以在各种推荐系统上学习有效的攻击策略,并采用任何合适的高级强化学习方法。它将生成的虚假用户行为反复注入到推荐系统中,并通过可用的奖励信号改进自己的攻击策略,直到模型收敛。具体地说,我们将序列攻击行为轨迹建模为一个MDP给定状态st包含一个可变长度的攻击轨迹,我们使用长短期记忆(LSTM)网络将它们嵌入到一个固定长度的隐藏变量中,基于此可以对下一个动作进行采样。对于奖励信号,我们考虑在黑盒设置下的一个预定义的目标项目集上的页面视图(PV)[22],[25]的可观察数量。为了克服强化学习中大动作空间上的低收敛性问题,我们通过有偏完全二叉树(BCBT)对动作空间进行了重新表述,可以显著提高模型的模型性能和收敛效率。我们采用了来自Steam、movielens和亚马逊的真实世界数据,并选择了8种不同的被广泛使用的推荐算法作为我们的攻击测试平台。大量实验表明,中毒在不同推荐系统上具有自适应学习有效攻击策略的能力。

本文的其余部分组织如下。我们首先在第二节中回顾准备工作,然后在第三节中提出我们的中毒反应框架。第四节报告了实验结果。最后,我们在第五节中总结了该论文。

2准备工作

我们回顾了近年来推荐系统的发展,并讨论了现有的攻击方法。

A.推荐系统的发展

推荐系统可以预测用户的偏好,近年来得到了很大的发展。ItemKNN[12],[26]是一种基于项目的CF方法,它通过计算项目之间的相似性来推荐项目。MF[2]是一种基本的基于模型的CF推荐算法。BPR[5]通过成对的排名损失来优化MF。随着深度神经网络技术的发展,许多基于深度学习的[3]、[4]方法也被提出。他等人[3]给出了NeuMF,用神经结构替换MF中的内积,这样它就可以从数据中学习到任意的用户项偏好函数。Suvash等人,[27]利用自动编码器范式,提出了AutoRec,它可以直接预测用户对所有项目的潜在兴趣。此外,序列信息和图结构信息在预测用户偏好方面具有明显的好处。Bal‘azs等人[6]和Zhou等人[28]利用用户的历史行为来预测用户可以点击或购买的下一个商品。Wang等人[9]利用用户项图中的高阶结构信息,获得了更好的推荐性能。

B.在推荐系统上的攻击方法

针对推荐系统最常用的攻击方法是手工设计的启发式攻击方法[1]、[10]、[11],如流行攻击和随机攻击。它们可以应用于任何类型的推荐系统,但其结果通常并不令人满意。最近对攻击推荐系统的研究获得了更好的[12]-[17]性能。神学院等人,[13],[14]建议在制定攻击策略时,提前选择“高级用户”和“高级项目”。Yang等人[12]试图攻击一个简单的非个性化探视推荐系统。他们将攻击策略建模为一个约束线性优化问题,通过求解,他们可以欺骗推荐系统,根据自己的要求提出建议。等[17]提出一种方法,可以采用攻击各种推荐系统,他们首先生成假评级分数多个控制用户帐户初始化矩阵,然后使用近似梯度方法迭代更新矩阵获得有效的攻击策略。

3一个自适应的数据中毒攻击框架

在本节中,我们首先总结了表I中一些常用的符号,并给出了在黑盒设置下真实的推荐系统和攻击者的知识需求的概述。然后,我们提出了攻击问题,最后提出了新的自适应数据中毒攻击框架,即泊中毒反应。

Cu: 每个用户u的候选集Cu

Lu: 得分最高的前k项作为最终推荐结果Lu

I: 它表示推荐系统中设置的原始(现有)项。

It: 它是攻击者想要提升的目标项目集,在本文中由8个新项目组成。

N: 它是攻击者的数量。

τ: 它指的是由T项组成的攻击轨迹。

A. 概述

1)推荐系统:一个典型的推荐系统通常由至少两个独立的组件组成:候选生成和排名排名。候选代[4]负责从整个语料库中选择数百个项到每个用户u的候选集Cu中。使用Ranker[3]、[6]、[9]、[29]对Cu中的项目进行排序,可以更准确地估计用户对项目的偏好得分,然后选择得分最高的前k项作为最终推荐结果Lu

2)攻击背景:我们将在本部分中讨论攻击者的目标、知识和能力。

攻击者的目标。

我们引入了一个广泛使用的概念,即页面视图(PV)的数量,它在真实的在线推荐系统中测量项目在一定时间内的暴露情况。我们正式定义了一个预定义的目标项目上的PV的数量,并将其设置为RecNum。具体来说,我们给出:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值