04_强化学习,让机器像人一样自我进化

在这里插入图片描述

强化学习

强化学习也被称为增强学习,又称再励学习、评价学习或增强学习。是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

它在模型实时更新、用户行为快速反馈等方向上拥有巨大的优势。自从 2018 年开始,它就被大量应用在了推荐系统中,在游戏、棋类、教育领域都有非常广泛的应用场景。那场经典人机围棋大战:Alpha Go 战胜李世石让强化学习进入了大众视野。强化学习的基本原理,简单来说,就是一个智能体通过与环境进行交互,不断学习强化自己的智力,来指导自己的下一步行动,以取得最大化的预期利益。

强化学习概念

事实上,任何一个有智力的个体,它的学习过程都遵循强化学习所描述的原理。比如说,婴儿学走路就是通过与环境交互,不断从失败中学习,来改进自己的下一步的动作才最终成功的。再比如说,在机器人领域,一个智能机器人控制机械臂来完成一个指定的任务,或者协调全身的动作来学习跑步,本质上都符合强化学习的过程。

为了把强化学习技术落地,只清楚它的基本原理显然是不够的,我们需要清晰地定义出强化学习中的每个关键变量,形成一套通用的技术框架。对于一个通用的强化学习框架来说,有这么5个元素是必须要有的

  1. 智能体(Agent):强化学习的主体也就是动作的发出者
  2. 环境(Environment):智能体所在的环境,智能体交互的对象
  3. 行动(Action):由智能体做出的行动
  4. 奖励(Reward):智能体作出行动后,该行动带来的奖励/惩罚;
  5. 状态(State):当智能体运动时环境通常会给智能体一个反馈 (奖励/惩罚), 都会导致智能体状态发生变化

在这里插入图片描述
例如:我们小时候在玩飞机游戏时,游戏里面的飞机就是Agent (智能体),我们可以通过游戏手柄来控制它的移动(上,下,左,右)。每移动就意味着它向环境做出了一个Action (行动),同时飞机的状态(位移) 也会发生变化。由于飞机位移发生了变化,例如像左移动,如果左边刚好有一枚金币,那么系统就会统计飞机又多的一枚金币 (奖励),如果左边是一枚子弹那么飞机就会中弹导致游戏结束 (惩罚)

美团强化学习案例

此案例为美团官方公布的教程,具体事项细节单击传送门

强化学习在推荐系统中落地会有一个难点:因为强化学习涉及模型训练、线上服务、数据收集、实时模型更新等几乎推荐系统的所有工程环节,所以强化学习整个落地过程的工程量非常大,需要工程和研究部门通力合作才能实现。即使很难,但业界依然有成功落地强化学习的案例,典型的就是美团在“猜你喜欢”功能中的应用。

“猜你喜欢”是美团这个团购 App 中流量最大的推荐展位,产品形态是信息流。从图 1 的 App 截图中你可以看到,“猜你喜欢”列表中推荐了用户可能喜欢的餐厅,用户可以通过下滑和翻页的方式实现与 App 的多轮交互,在这个过程中,用户还可能发生点击、购买等多种行为。
在这里插入图片描述
在“猜你喜欢“展位中,用户可以通过翻页来实现与推荐系统的多轮交互,此过程中推荐系统能够感知用户的实时行为,从而更加理解用户,在接下来的交互中提供更好的体验。“猜你喜欢”用户-翻页次数的分布是一个长尾的分布,在图2中我们把用户数取了对数。可知多轮交互确实天然存在于推荐场景中。
在这里插入图片描述
在这样的多轮交互中,我们把推荐系统看作智能体(Agent),用户看作环境(Environment),推荐系统与用户的多轮交互过程可以建模为MDP

在这里插入图片描述

总结和展望

强化学习是目前深度学习领域发展最快的方向之一,其与推荐系统和排序模型的结合也有更多价值等待发掘。本文介绍了强化学习在美团“猜你喜欢”排序场景落地的工作,包括根据业务场景不断调整的MDP建模,使强化学习能够取得一定的正向收益;通过改进DDPG做数据增强,提升模型的鲁棒性和实验效率,从而取得稳定的正向收益;以及基于TensorFlow的实时DRL框架,为高效并行策略迭代提供了基础。经过一段时间的迭代优化,我们在强化学习方面也积累了一些经验,与传统的监督学习相比,强化学习的价值主要体现在:

  1. 灵活的奖励塑形,能支持各种业务目标建模,支持多目标融合,为业务目标直接负责。
  2. 充满想象空间的动作设计,不需要直接的Label,而是通过网络来生成和评价策略,适合作为监督学习的补充。
  3. 考虑优化长期收益对当前决策造成的影响,Agent与Environment交互频繁的场景更加能体现强化学习的价值。

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值