强化学习与推荐系统结合

在这里插入图片描述
强化学习与推荐系统结合,是在智能体的学习过程中,会根据外部反馈信息,改变自身状态,在根据自身状态进行决策,就是行动反馈,状态更新,在行动的循环。
在这里插入图片描述
深度强化学习推荐系统框架是基于强化学习的经典过程提出的,
如图 所示,框架图非常清晰地展示了深度强化学习推荐系统框架的各个组成部分,
智能体:推荐系统本身,它包括基于深度学习的推荐模型、探索 (explore)策略,以及相关的数据存储(memory )。
环境:由新闻网站或 App、用户组成的整个推荐系统外部环境。在环境中用户接收推荐的结果并做出相应反馈
行动:对一个新闻推荐系统来说,“行动”指的就是推荐系统进行新闻排序后推送给用户的动作。
反馈:用户收到推荐结果后,进行正向的或负向的反馈。例如,点击行为被认为是一个典型的正反馈,曝光未点击则是负反馈的信号。此外,用户的活跃程度,用户打开应用的间隔时间也被认为是有价值的反馈信号。
状态:状态指的是对环境及自身当前所处具体情况的刻画。在新闻推荐场景中,状态可以被看作已收到所有行动和反馈,以及用户和新闻的所有相关信息的特征向量表示。站在传统机器学习的角度,“状态”可以被看作已收到的、可用于训练的所有数据的集合。

在这样的强化学习框架下,模型的学习过程可以不断地迭代,迭代过程主要有如下几步:
(1)始化荐系统(能体)。
(2)推荐系统基于当前已收集的数据(状)进行新闻排序(行动),并推送到网站或 App(环境)中。
(3)用户收到推荐列表,点击或者忽略(反馈)某推荐结果
(4)推荐系统收到反馈,更新当前状态,或通过模型训练更新模型
( 5) 然后再基于收集到的数据进行探索,这就是整体的一个循环。

在这里插入图片描述
DQN是指通过对行动进行质量评估,以此进行行动决策,DQN 的网络结构如图 所示,在特征工程中套用强化学习状态向量和行动向量的概念,把用户特征(user features ) 和环境特征 ( context features )归为状态向量,因为它们与具体的行动无关;把用户-新闻交叉特征和新闻特征归为行动特征,因为其与推荐新闻这一行动相关。
用户特征和环境特征经过左侧多层神经网络的拟合生成价值 (value ) 得分V(s),利用状态向量和行动向量生成优势 (advantage) 得分 A(s,a),最后把两部分得分综合起来,得到最终的质量得分 Q(s,a)。

在这里插入图片描述
DRN 的学习过程是整个强化学习推荐系统框架的重点,正是由于可以在线更新,才使得强化学习模型相比其他“静态”深度学习模型有了更多实时性上的优势。图中以时间轴的形式形象地描绘了 DRN的学习过程。
按照从左至右的时间顺序,依次描绘 DRN 学习过程中的重要步骤
(1)在离线部分,根据历史数据训练好 模型,作为智能体的初始化模型
(2)在 t1-t2 阶段,用初始化模型进行一段时间的推送(push) 服务,积累反馈 ( feedback)数据。
(3)在t2时间点,利用t1-t2阶段累的用户点击数据进行模型微更新( minorupdate ).
(4)在 t4时间点,利用t1-t4阶的用户点击数据及用户活跃度数据进行模型的主更新(major update )。
(5)重复第 2~4 步

在这里插入图片描述
在上一步模型主更新操作可以理解为利用历史数据的重新训练,用训练好的模型替代现有模型。
那么在第 3 步中提到的模型微调,这就牵扯到 DRN 使用的一种新的在线训练方法一竞争梯度下降算法(DuelingBandit Gradient Descent Algorithm )

(1)对于已经训练好的当前网络 ,对其模型参数 w 添加一个较小的随机扰动W,得到新的模型参数W,这里称W对应的网络为探索网络Q。
(2)对于当前网络 O和探索网络分别生成推荐列表 L和用Interleaving将两个推荐列表组合成一个推荐列表后推送给用户
(3)实时收集用户反馈。如果探索网络生成内容的效果好于当前网络 .则用探索网络代替当前网络,进入下一轮迭代;反之则保留当前网络。
这就是竞争梯度下降算法。

  • 24
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习和计算机视觉的结合是一个非常有潜力的研究方向。强化学习是一种通过试错和奖励来训练智能体进行决策的机器学习方法,而计算机视觉则是指让计算机通过图像或视频数据来理解和解释视觉信息。 在强化学习中,计算机视觉可以用来提供智能体的感知能力。通过使用计算机视觉技术,智能体可以从环境中获取图像或视频数据,并将其转化为对环境的理解。这些数据可以用于提供更丰富的状态表示,帮助智能体更好地理解环境、识别物体、检测动作等。 另一方面,强化学习可以为计算机视觉提供决策能力。计算机视觉任务通常需要进行决策,例如目标检测、图像分割等。强化学习可以通过训练一个智能体来自动地进行这些决策,并且可以根据任务的反馈来不断优化决策策略。 例如,在自动驾驶领域,强化学习可以与计算机视觉相结合,让智能车辆通过感知图像数据来识别交通标志、车辆和行人,并根据这些信息做出决策,例如加速、刹车、转向等。这种结合可以帮助智能车辆更好地适应复杂的交通环境,并提高行驶的安全性和效率。 总的来说,强化学习和计算机视觉的结合可以为许多领域带来巨大的潜力,包括机器人技术、自动驾驶、智能监控等。通过结合这两个领域的技术,我们可以实现更智能、更自动化的系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值