百度NLP:强化学习之原理与应用

本文介绍了强化学习的原理及其在百度NLP中的应用,包括推荐系统、对话管理和移动控制等方面。百度利用强化学习工具PARL进行算法研发,并探讨了强化学习存在的挑战及应对策略。
摘要由CSDN通过智能技术生成

强化学习之原理与应用

强化学习特别是深度强化学习近年来取得了令人瞩目的成就,除了应用于模拟器和游戏领域,在工业领域也正取得长足的进步。

百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识,强化学习在百度的应用,以及百度近期发布的强化学习工具PARL。

强化学习算法

强化学习(RL)和其他学习方法的异同

首先,从宏观层面看,可以通过“三轴”图来看强化学习与其他学习方法的联系和区别:第一条轴deterministic -stochastic可以描述转移概率,决策过程和奖励值分布的随机性;第二条轴fixed dataset -interactive data,表示学习数据的来源方式;第三轴instant reward -delayed reward表示奖励值是立即返回还是有延迟的。我们熟知的有监督学习,针对的是静态的学习数据,以及近似可以看作无延迟的奖励;动态规划针对的则是确定性的环境,以及静态的数据;主动学习针对无延迟的奖励以及交互型的数据;多臂老虎机(multi-armed bandits)则同时处理带有奖励随机性和交互型的数据,但依旧是无延迟的奖励问题;只有强化学习处理三个方向(随机,有延时,交互)的问题。因此,强化学习能够解决很多有监督学习方法无法解决的问题。

强化学习(RL)的基本定义

强化学习的主要思想是基于机器人(agent)和环境(environment)的交互学习,其中agent通过action影响environment,environment返回reward和state,整个交互过程是一个马尔可夫决策过程。

举个例子如雅利达游戏:state指看到当前电游屏幕上的图像信息;agent或者人类专家面对state可以有相应的action,比如对应游戏手柄的操作;environment在下一帧会反馈新的state和reward,整个过程可以用马尔可夫决策过程来描述。在这个过程中的environment则主要包括两个机制:一个是transition代表环境转移的概率,另外一个是reward。

Markov Decision Process和Policy的定

可以通过更具体的类比来理解有监督和强化学习的REINFORCE算法的关联。假设在t时刻action以来表示. 在有监督的学习过程中需要人来示范动作, 通常我们希望机器去学习人的示范动作,在这里就代表示范的label。我们一般可以通过最小Negative Log-Likelihood (NLL)来使得我们的policy函数逼近人的示范。

从Supervised Learning到REINFORCE

除此之外,DQN、temporal difference等方法,则是基于一个值(critic)评价体系进行迭代,而非直接求解policy。这类方法存在显著问题是无法针对连续动作空间。本文不再展开介绍。

REINFORCE 和 CreditAssignment

从REINFORCE到Advantage Function的计

强化学习涉及的算法非常多,种类也非常广,包括:model-free算法,这类算法最为大家所熟知,而它又可以分为critic only,actor only和actor-critic;model based算法,通过对环境建模来进行规划,这类算法在训练过程中具有很高效率,但因为inference的时候需要做planning效率则较低,这类方法最近获得越来越多的关注;还有一些和不同算法结合在一起的组合RL方法,如Auxiliary Tasks, Hiearchical RL,DeepExploration,逆强化学习等。

强化学习的算法罗列

强化学习应用-推荐系统

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值