用于强化推荐系统的Top-K非政策修正方法 - 论文翻译

原文链接:https://arxiv.org/pdf/1812.02353.pdf

摘要:

工业推荐器系统处理非常大的动作空间–数以百万计的项目需要被推荐。而且,他们需要为数十亿用户提供服务,这些用户在任何时间都是不一样的情况,使用户状态空间变得非常复杂。幸运的是,数量巨大已记录的隐式反馈(例如,用户点击次数,停留时间)可供我们训练模型来学习。但是从记录的反馈中学习可能会因为数据的原因学习到一些偏见。在这项工作中,我们提出了解决此类偏见的一般方法 -- YouTube生产的顶级K推荐系统,该系统使用基于策略梯度的算法,即REINFORCE [48]。本文的贡献是:(1)将REINFORCE扩展到具有数百万个操作空间的推荐系统;(2)应用off-policy修正来解决学习中的数据偏见; (3)提出了一种新颖的前K位off-policy修正,以解释我们一次推荐多个项目的策略; (4)展示探索的价值。我们通过一系列的模拟和多个实时实验YouTube,证明了我们方法的有效性。

ACM参考格式


Minmin Chen,Alex Beutel,Paul Covington,Sagar Jain,Francois Belletti,Ed志智 2019. 
用于强化推荐系统的Top-K非政策修正方法。 在第十二届ACM国际网站搜索和数据挖掘(WSDM’19),2019年2月11日至15日,澳大利亚维多利亚州墨尔本市。ACM,美国纽约,纽约,共9页。 https://doi.org/10.1145/3289600.3290999

1 引言

整个行业都依赖推荐系统来为用户提供可能喜欢的一小部分Item。这个问题是具有挑战性,因为有大量商品作为候选。此外,还需要捕捉到用户不断变化的兴趣来为他们进行推荐。不幸的是,对于如此大的状态和动作空间,我们观察到的数据相对较少,其中大多数仅接触过少量物品的用户,并且提供更小的反馈信息。那是,推荐系统收到极其稀疏的数据以进行训练,例如Netflix奖数据集的密度仅为0.1%[5]。结果,对推荐系统进行了大量研究探索了处理这种极端稀疏性的不同机制。从隐式的用户反馈(例如点击次数和停留时间)中学习,以及填补未观察到的相互作用改进推荐程序的步骤[19],但问题仍然存在。

在大部分单独的研究领域中,强化学习(RL)最近在游戏中也取得了令人瞩目的进步[38,46]作为机器人技术[22,25]。 RL通常侧重于建立能够在环境中采取行动,以最大程度地优化长期奖励。 在这里,我们探讨推荐构架,以便建立RL智能体,以最大化每个用户的长期满意度为目的。 这为我们提供了有关推荐问题的新观点,并为我们提供了基于最新建议的机会RL进步。 但是,仍然存在重大挑战这种观点付诸实践。

如上所述,推荐系统处理大规模状态和动作空间,尤其是在工业领域。 可推荐的一组项目是非固定的,并且新项目不断被带入系统,导致不断增长的动作空间,新物品只能得到稀疏反馈。 此外,一直以来,用户对这些项目的偏好正在发生变化,导致用户状态不断变化。  在这里,我们分享了将REINFORCE算法[48]应用于神经网络的召回模型(top-K推荐系统)

除了庞大的动作和状态空间外,RL在推荐系统中,能够用到的数据也是很有限。经典RL应用程序通过收集大量数据克服了数据效率低下的问题,他们使用用self-play and simulation的方式获得了大量训练数据[38]。在相比之下,推荐系统的动作空间太大了,不像五子棋、围棋那样只有几百几千,所以这是一个很尴尬的问题。结果,我们无法轻易地获得之前用户没曝光过的state和action可以得到的奖励。相反,该模型主要依赖于以前的推荐模型(策略),模型里面的细节,其中大多数我们无法控制或无法再继续控制,所以得到的推荐结果也是很尴尬的。为了最有效地利用其他策略的反馈,我们采用off-policy的方法,在训练我们的新策略时,我们先拿到先前政策的模型的推荐结果,然后对推荐结果的偏差进行进行纠正,用这些数据来训练我们的新政策。我们还通过实验证明了这种方法的有效性。

最后,RL中的大多数研究都集中在训练一个模型,这个模型可以输出个单一的item,比如游戏里,输出电脑下一步该咋走。 现实世界中的推荐模型,通常在同一个时间像用户推荐多个item。 因此,我们为top-K推荐器系统定义了一种新颖的top-K非政策修正。 我们发现,标准的非政策性更正产生了最适合top-1推荐,这种top-K的政策外修正,在线下模拟和现上实验都取得了很好的效果。 我们有以下贡献:

•REINFORCE推荐人:我们扩展了基于REINFORCE策略梯度的方法来学习一个基于神经网络来进行从巨大行动空间中进行推荐top-k的政策。
•Off-Policy候选集的产生:我们先用离线模型得到一批召回结果,然后用训练好的神经网络模型对候选结果进行改进
•Top-K 离线模型 的更正:我们提供了一种新颖的top-K偏离政策更正,以说明我们的推荐者一次输出多个项目的事实。
•线上实验的好处:我们在线上实验中进行了演示,这在现有的RL文献中很少进行,这些方法对长期改善用户的价值满足。

我们发现这种方法组合对于增加用户的使用享受感很有用,并相信在推荐系统中使用RL可以解决许多实际挑战

2 相关工作强化学习:

强化学习:基于值的方法,例如Q学习,基于策略的策略(例如策略梯度)构成了解决RL问题的经典方法[40]。一般比较可以在[29]中找到现代RL方法的重点异步学习是解决大规模问题的关键。尽管基于价值的方法具有许多优势例如无缝的off-policy学习,它们很容易出现函数近似问题[41]。通常,这些方法需要广泛进行超参数调整才能获得稳定的性能。尽管许多基于价值的实践取得了成功,例如深度Q学习[30],这些算法没有得到很好的研究。另一方面,基于策略的方法,保持稳定函数近似给定足够小的学习率。因此,我们选择依赖基于策略梯度的方法,尤其是REINFORCE[48],并采用这种基于策略的方法来提供可靠的策略脱离政策训练时的梯度估计

神经网络推荐:与我们紧密相关的另一项工作是,越来越多的关于应用深度学习的文献推荐系统[11、16、37]的神经网络,尤其是使用递归神经网络合并时间信息和历史事件以进行推荐[6、17、20、45、49]。通过用户与推荐系统的交互,我们采用了类似的网络架构来模拟不断变化的用户习惯。 由于神经体系结构设计不是我们工作的重点,我们请感兴趣的读者阅读这些先前的作品以获取更多详细信息讨论。

推荐系统中的难点问题:在线学习方法也很流行,随着新用户反馈的出现可以快速适应推荐系统。 这样的“强拟合”算法由于高可信度边界(UCB)[3]权衡了探索和以易于分析的方式进行开发,从而提供强大的保证。 不同的算法,比如Thomson抽样[9],已成功应用于新闻推荐和展示广告。 情境拟合办法为基本的在线学习方法和量身定制提供了情境感知的改进针对用户兴趣的建议[27]。 Agarwal等[2]旨在使内容拟合方法易于处理且易于实施。依赖矩阵分解和内容拟合的混合方法,有的开发组还用来解决推荐程序中的冷启动问题系统[28]。

推荐系统中的倾向计分和强化学习:off-policy学习中存在的问题[31、33、34]在RL中普遍存在,并普遍影响决策梯度更新。随着策略的发展,梯度期望的分布也是被计算。机器人技术的标准方法[1,36]通过限制策略更新规避了这一点,以至于没有新数据收集之前,这项策略也不发生更改信息,反过来提供单调的改进RL目标的保证。不幸的是,这种极端方法不适用于推荐设置目录和用户行为迅速变化的系统,因此需要进行实质性的策略更改。与此同时,反馈信息在大的状态和动作空间上,收集起来很慢。作为一个事实,在推荐器系统设置中,对给定策略进行离线评估已经是一个挑战。多个off-policy估算器利用逆向得分、上限逆向分数和各种方差控制措施来解决这一问题,并且已经开发出来[13、42、43、47]。Off-policy 离线评估可纠正类似的数据偏斜因为在这两个问题上都采用了策略外的RL和类似的方法。逆倾向得分也已被用来改善[39]大规模服务政策。 Joachims等。 [21]学习一个反馈数据是极度不平衡的推荐系统模型;我们采取同样考虑了远景的办法,使用DNN建模需要有离线收集到的数据来进行建模。最近一个 off-policy 方法已经被提出来能够适应这一一个复杂的系统问题[44],其中伪逆估计器假设计划中的结构先验和奖励,已经被应用在反向趋势得分的策略中。

3 强化学习


我们首先介绍推荐系统的设置,以及我们基于RL推荐的方法。

对于每个用户,我们考虑一系列用户与系统的历史互动,记录推荐者采取的操作(即推荐的视频)以及用户反馈,例如点击并观看时间。 给定这样的交互序列,我们可以预测下一个用户可能采取行动的item,即推荐视频,以使用户满意指标(例如由点击次数或观看时间表示)会有所改善。

我们将此设置转换为马尔可夫决策过程(MDP)

(S, A, P, R, ρ0,γ ) where

•S:描述用户状态的连续状态空间;
•A:离散的动作空间,包含可用于推荐的所有item;
•P:S×A×S→R是状态转移概率;
•R:S×A→R是奖励函数,其中r(s,a)是通过对用户执行操作a获得的立即奖励状态;
•ρ0是初始状态分布;
•γ是未来奖励的折扣因子。

我们寻求一个策略π(a | s),该策略将商品的分布转化为推荐一个以用户状态s∈S为条件的a∈A,以使推荐者获得的预期累积奖励最大化

在这里,上面的期望值E是轨迹 τ = (s0, a0,s1, · · · ),这个轨迹由我们设置的策略得到的一系列行为而获得 s0 ∼ ρ0, at ∼ π(·|st ),st+1 ∼ P(·|st , at )

有多种方法可用于解决此类RL问题:Q-learning [38], Policy Gradient [26, 36, 48] 和黑箱优化[15]。 在这里,我们关注基于策略梯度的方法,即REINFORCE [48]。

我们假设策略为 πθ 的函数形式,其中的θ∈Rd。 预期累积奖励的梯度为可以通过分析得出是“对数方式”,产生以下REINFORCE梯度

在线RL中,策略梯度是根据轨迹计算的由所考虑的策略产生的策略梯度是无偏见的,可分解为:

近似值是用折后的R(τ)代替未来的奖励。

在时间t采取行动减少梯度估计中的方差。

4 OFF-POLICY修正

与经典强化学习不同,我们的“智能体”没有通过学习对推荐系统进行实时交互控制、基础设施限制。 换句话说,我们不能执行在线更新政策并根据立即更新政策。 相反,我们会记录我们策略得到的反馈信息(或多个其他不同策略得到的反馈信息),这些在动作空间上的分布可能与我们正在更新的政策不同。

我们专注于解决此设置下的策略梯度方法,应用时出现的数据偏差问题。 特别是我们以几个小时的周期收集数据并进行计算部署新版本之前,许多策略参数更新生产中的政策隐含意味着我们用来估算政策梯度的一组轨迹是由不同的策略得到的。 而且,我们从其他策略收集的批处理反馈中,推荐系统也遵循完全不同的政策。朴素的策略梯度估算器是平衡的数据,因为无偏公式(2)中的梯度计算,需要对我们收集到的数据进行采样。

我们用重要性加权[31,33,34]解决分布不匹配的问题。 考虑根据行为政策β,对轨迹τ=(s0,a0,s1,····)采样,策略外修正的梯度为:

上面公式是重要性加权权重。 每当轨迹被收集时,这种校正会产生无偏见估计,估计器就会根据β进行采样。 但是,由于涉及到的Item很多,所以估计量的方差很大,很快导致非常低或很高重要权重的值。

为了减少轨迹在时间t上每个梯度组的方差,我们可以忽略在时刻t时整个链路上的items,估算出重要性权重,并且进一步采取一阶近似:

得出具有较低方差的策略梯度的偏向估计值:

Achiam等人证明这种一阶近似对学习策略的总奖励的影响是有限的幅度。其中DTV是π(·| s)与β(·| s)之间的总变化,d(β)是未来的折价状态β下的分布。 该估计量折衷了精确的 off-policy 修正,同时仍在修正非校正的策略梯度,更适合于基于策略学习

4.1 策略参数 π

我们将在每个时间t的用户状态下建立我们的模型,都使用n维向量来代表用户兴趣,也就是说,st∈Rñ。 沿着每个时间t的轨迹采取的动作使用m维向量uat∈R来进行表达, 我们为状态转换P进行建模:具有递归神经网络的S×A×S [6,49]

我们尝试了多种流行的RNN单元,例如长短期记忆(LSTM)[18]和门控循环单元(GRU)[10],最后使用了称为Chaos Fre的简化单元RNN(CFN)[24]由于其稳定性和计算效率。状态以递归方式更新为

z(t), i(t)∈Rñ分别是更新和输入门。

以用户状态s为条件,策略πθ(a | s)用一个简单的softmax进行建模,

其中va∈Rñ是另一个动作空间A和T的每个动作,通常设置为1。T的值越高,在操作空间上的策略越平滑。softmax中的标准化项需要遍历所有可能的操作,在我们的设置中大约为数百万。为了加快计算速度,我们在训练中执行了采样的softmax [4]。 在投放时,我们使用了一种有效的最近邻搜索算法来检索顶部动作并近似估算如第5节中所述,仅使用这些动作的softmax概率。

总的来说,参数 θ 和 策略 πθ 包含两个动作向量 U/V,U(z)用来表示权重指标,还有一些其他参数都在上面的截图中,都是RNN的参数,下面的图1

图1显示了描述主策略πθ的神经结构。 给定一个从行为策略β采样的轨迹τ=(s0,a0,s1,...),新策略首先通过启动来生成用户状态st + 1的模型,通过初始状态为s0〜ρ0,并反复进行像等式(4)中的单元格。 给定用户状态st + 1,策略负责人通过softmax在动作空间上分配分布,如等式(5)。 有πθ(at + 1 | st + 1),然后我们可以制定政策如等式(3)中的梯度来更新策略。

图1:该图显示了该策略的参数化πθ以及行为策略βθ'。

4.2 估计行为策略β

在公式(3)中,提出off-policy策略的修正估算器的一个困难是得到行为策略β。 理想情况下,对于每个记录了我们收到的选定操作的反馈,我们希望还要记录行为策略选择的概率。 但是在我们的例子中直接记录行为策略是不可行的,因为(1)系统中有多个策略,很多其中我们无法控制,(2)一些广告代理商拥有确定性策略,将β设置为0或1并非最有效利用这些记录的反馈的方法。

取而代之的是,我们采用[39]中首次引入的方法,并估计行为策略β,在我们的案例中,该行为策略β,是使用混合了系统中多个代理策略的行为。给定一组记录的反馈D = {(si,ai),i = 1,···,N},斯特雷尔等。 [39]通过聚合估算 β(a),与用户状态无关整个语料库中的动作频率。相反,我们采用上下文相关的神经估计器。对于每个状态动作对(s,a)都进行收集,我们使用另一个softmax选择该行为来估计概率 ˆβθ'(a | s),由θ参数化′。如图1所示,我们重用了从RNN模型中生成的用户状态,并且用另一个softmax层建模了混合多个策略的数据。为了阻止干扰主用户的状态政策,我们阻止其梯度流回RNN。我们还尝试分离πθ和βθ′估计量产生用于计算另一种状态表示的计算开销,但不会导致离线状态下的任何度量改进和线上实验

尽管两者之间大量共享参数政策 πθ和βθ′ ,他们之间有两个明显的区别:
(1)主要政策πθ使用了有效的训练考虑到长期回报的加权softmax,行为政策负责人βθ'仅使用状态-动作对进行训练;
(2)主政策头πθ仅使用以下项目进行训练具有非零奖励的轨迹3,行为策略βθ``是使用轨迹上的所有项目进行训练以避免引入β估计中的偏差。

尽管策略πθ和βθ′两者之间大量共享参数,他们之间有两个明显的区别:(1)主要政策πθ进行了有效的训练,使用加权softmax来计算长期回报,行为策略βθ'仅使用(状态-动作对)进行训练;(2)主策略头πθ仅使用非0奖励中的轨迹数据进行训练,行为策略βθ``是使用轨迹上的所有项目进行训练以避免引入β估计中的偏差。

4.3 Top-K Off-Policy 修正

我们设置中的另一个挑战是我们的系统一次向用户显示k个item。 当用户浏览(全部或部分)我们的推荐items,可能与多个项目进行交互,我们需要选择一组相关项目,而不是单个项目。 换句话说,我们寻求策略ΠΘ(A | s),这里每个动作A都会选择一组k个项,最大化预期的累积奖励,

通过根据  来获得轨迹τ=(s0,A0,s1,····) 。 不幸的是,根据设定的推荐公式[44,50],动作空间呈指数增长,考虑到我们选择的项目数量约为数百万。

为了使问题易于解决,我们假设预期一组非重复项目的报酬等于组4中每个项目的预期报酬之和。 此外,我们限制通过独立采样来产生设定动作A,就像在等式(5)中描述的softmax策略πθ那样,然后去重。 那是,

注意设置A′将包含重复项,这些重复项将被删除,以形成一个非重复的集合A。

在这些假设下,我们可以通过简单地修改REINFORCE算法以适应设置中的推荐设置。公式(2)中的梯度更新为

然后,我们可以通过用αθ替换πθ来更新公式(3)中的 off-policy 校正梯度,从而导致前K off-policy校正系数:

将公式(6)与公式(3)进行比较,top-K策略添加了一个额外乘数(下面的7公式)乘到了原本的 off-policy 修正因子 π(a | s)/ β(a | s)中

现在让我们仔细看一下这个额外的乘数:

•随着πθ(a | s)→0,λK(s,a)→K。对比标准的off-policy修正来看,top-K的 off-policy 修正增加了一个修正因子 k
•随着πθ(a | s)→1,λK(s,a)→0。乘积项0将会不存在于策略更新中
•随着K的增加,此乘数将梯度减小为零,使得πθ(a | s)达到合理范围

总而言之,当softmax时的策略πθ(·| s)中所需项目的权重较小时,则top-K校正会比标准修正,更积极地向上推它的可能性。 一旦softmax策略πθ(·| s)在所需项目上投放合理的质量(以确保可能会出现在前K个字符中),然后将校正值归零渐变,不再尝试提高其可能性。 这个在回报允许其他感兴趣的项目在softmax策略。 正如我们将在模拟中演示的那样以及现场实验,而标准的非政策性更正收敛到选择单个项目时最佳的策略,top-K修正会导致更好的top-K建议。

4.4减少方差的技术

如本节开头所述,我们采取一阶近似以减少估计梯度中的方差。 但是,由于ω(s,a)=π(a |s)/ β(a | s),如公式(3)所示,所以同样适用于top-K的 off-policy 修正。 重要的权重可以导致
(1)与行为政策相比,新策略π(·| s)大的偏差,特别是新策略探索了行为政策中较少探讨的地方。 即,π(a | s)≫β(a | s)
(2)β估计值有较大差异。

我们测试了反事实学习中提出的几种技术和RL文献,来控制梯度估计中的方差。 最这些技术中的一些以引入一些为代价减少了方差梯度估计中的偏差

权重上限:我们采取的第一种方法是简单地限制权重[8]为

c的值越小,梯度估计值的方差越小,但是引入更大的偏见。

标准化重要性抽样(NIS)。  第二种技术,我们采用的是引入比率控制变量经典权重归一化[32]定义为:

随着 Eβ[ω(s,a)] = 1,批次大小,在期望中,归一化常数等于n。 随着n的增加,NIS的效果是等效的调低学习速度。

可信区域策略优化(TRPO)。 TRPO [36]防止新策略π偏离行为策略通过添加正则化来惩罚这些的KL散度两项政策。 达到与权重限制类似的效果

剩下的是论文中的实验部分,,,待续

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值