增强学习

增强学习要解决的是这样的问题:一个能够感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。

考虑一个机器人(agent)通过传感器观察周围环境状态(state)并作出一组动作(action)改变这些状态。学习的任务是获得一个控制策略(policy),以选择能达到目的的行为。

假定agent的目标可被定义一个回报(reward)函数,它对agent从不同的state中选取不同的action赋予一个数字值,即立即支付(immediate payoff)。于是policy是能够从任何初始state选择恰当的action,使agent随时间累积获得的reward达到最大。

一个agent需要通过学习和action来改变state,其中使用了的一个累积reward函数来定义任意action序列的质量。

待学习的目标函数是控制策略π:S->A,它给定当前状态S集合中的s时,从集合A中输出一个合适的动作a。

增强学习问题与其他的函数逼近问题几个不同:

。延迟回报(delayed reward) agent的任务是学习一个目标函数π,它把当前状态s映射到最优动作a=π(s),而在增强学习中不能提供训练样例偶序<s, π(s)>,只提供一个序列立即回报值<s, r(s)>。

。探索(exploration) 在增强学习中,agent通过其选择的动作序列影响训练样例的分布。

。部分可观察状态(partially observable states) 实际情况下,agent所获得的当前状态信息是不完整的。

。终身学习(life-long learning) 不像分离的函数逼近任务,机器人学习问题经常要求此机器人在相同的环境下使用相同的传感器学习多个相关任务。这使得有可能使用先验知识在学习新任务中减少样本复杂度。



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值