推荐系统中的前沿技术之强化学习

6302a0843985ea846327d960a3e81837.jpeg

来源:本文摘自《这就是推荐系统-核心技术原理与企业应用》

作者:胡澜涛等

强化学习是机器学习重要的范式和方法论之一,与有监督学习、无监督学习并驾齐驱。区别于其他两种学习方法,强化学习是通过智能体(Agent)与环境的交互进行学习。强化学习是最接近动物学习模式的一种学习范式。

在标准的强化学习框架中,智能体作为学习系统,会结合环境当前状态信息,对环境进行行为试探,获取环境对此次行为的评价反馈和新的环境状态。如果智能体的行为获得环境正向奖赏,那么智能体后续产生该行为的趋势会加强;反之,智能体会减弱产生该行为的趋势。智能体通过与环境之间的“行为-反馈-状态更新”循环交互,学习从环境状态到行为的映射策略,以达到收益最大化或者实现特定目标。

智能体和环境交互的过程如图10-1所示,智能体感知当前的环境状态st,从行为空间A中选择执行行为at。环境接收到智能体选择的行为,转移到新的环境状态st+1,并根据奖励函数给智能体相应的奖励rt,然后等待智能体作出新的决策。智能体学习的过程是一个行为试探评价过程,目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

077cf44ab1f686daa837cebfcd3b4888.jpeg

图10-1 智能体和环境之间的交互

马尔可夫决策过程MDP(Markov Decision Process)是强化学习最基本的理论模型。MDP可以由四元组<S, A, R, P>来表示,其中:

(1)S为状态空间(State Space),包含了智能体所能感知的全部环境状态。

(2)A为行为空间(Action Space),包含了智能体在每个状态上可以采取的所有行为。

(3)R为奖励函数(Reward Function),R(s, a, s')表示在状态s上执行行为a,转移到状态s'时,智能体获得的奖赏值。

(4)P为环境的状态转移概率(State Transition Function),P(s, a, s')表示在状态s执行行为a,转移到状态s'的概率。

在利用MDP进行强化学习建模时,需要重点设计和考虑的问题:

1)如何表示状态空间和行为空间;

2)如何定义奖励函数,并通过学习来修正状态和行为的映射;

3)如何进行合适的行为选择。

在推荐场景中,用户和推荐系统天然地会有多轮交互,推荐系统可以通过感知用户行为反馈,不断修正后续的推荐策略。将推荐系统看作智能体,用户和推荐物品是智能体所处环境,整个推荐交互过程也可以通过MDP进行建模。下面以微软的DRN新闻推荐系统为例,介绍一下强化学习在推荐系统的应用,其构建方法也可以指导强化学习落地到其他领域。

如图10-2所示,在DRN深度强化推荐系统中,智能体就是推荐系统本身,环境由新闻推荐产品的用户和新闻组成。状态定义是用户特征表示,行为定义是新闻的特征表示。当用户请求智能体进行新闻推荐时,会将状态信息(用户特征)和行为信息(候选新闻特征)发送给智能体,智能体依据状态信息选择最优行为(新闻推荐列表),同时依据用户对推荐列表的行为作为奖励反馈,更新后续的推荐策略。从整个流程中不难看出,这是一个强化学习框架下的在线学习推荐系统。

0f206ee657618d0dabe40cf51d696abe.jpeg

图10-2 DRN深度强化推荐系统

DRN使用一种深度价值网络DQN(Deep Quality Network)对行为进行价值评估,根据评估得分进行行为决策。DQN的网络结构如图10-3所示,是一个典型的双塔结构。其中用户塔表示用户当前所处的状态,视为状态向量,输入是用户特征和上下文特征。物品塔是待推荐的候选新闻,推荐新闻的选择就是智能体的行为,所以物品塔特征向量就是行为向量,物品塔的输入包括用户特征、上下文特征、用户和新闻的交叉特征和新闻特征。智能体最终根据DQN的输出Q(s, a)来决定要选择哪些行为,即要推荐哪些新闻给用户。

ef3c86ee6f52cb9a946ab4d36f3db6a7.jpeg

图10-3 DQN网络结构

除了DQN价值网络,DRN另外一个重要的部分是模型的学习框架。DRN是在线学习更新模型,使得模型更具实时性。DRN模型更新学习的框架如图10-4所示,分为离线部分和在线部分。离线阶段利用用户的历史数据训练初始版本DQN模型,在线阶段智能体通过与环境的“行为-反馈-状态更新”循环交互更新DQN模型。在线更新DQN模型的步骤大致如下:

(1)推送(行为):当用户请求新闻推荐时,智能体根据用户特征和候选新闻特征生成TopK篇新闻列表推荐给用户。

(2)反馈:收集用户对新闻列表的点击反馈。

(3)微更新:在t2、t3、t5等时间跨度节点上,利用阶段积累的用户点击数据,进行模型微更新。DRN微更新频率是每次推荐曝光就会触发一次微更新。这里DRN还提出了一种竞争梯度下降算法(Dueling Bandit Gradient Descent algorithm)进行模型微更新操作。

(4)主更新:在t4时间节点,利用t1-t4时间范围内积累的用户点击日志和用户活跃度数据进行模型的主更新。主更新要比微更新低频许多,可以控制在每小时进行一次主更新。

重复(1)-(4)

DRN深度强化学习系统被成功应用到了微软的新闻推荐业务中,并为业务带来了25%的点击率提升,证明了强化学习在推荐系统中的可行性和巨大的增长潜力。此外,在ICML2019强化学习应用研讨会上,推荐系统也被提出认为是强化学习最有前景的应用方向之一。

a9a1bfc2e1f625024a452c3443d772df.jpeg

摘自《这就是推荐系统-核心技术原理与企业应用》

作者:胡澜涛等

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f356ca4033d9c97eb0297921dcd35d9b.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值