强化学习-通俗理解。

最近在学习强化学习,看了一些文章和课程,总结如下。

 

强化学习的定义。

        假定一个智能体(agent),在一个未知的环境中(当前状态state),采取了一个行动(action),然后收获了一个回报(return),并进入了下一个状态。最终目的是求解一个策略让 agent的回报最大化。

 

强化学习求解算法,一般采用马尔可夫决策过程(MPD),定义如下。

 

 

一个马尔可夫决策过程由一个四元组构成M = (S, A, Psa, R) 

MDP 的动态过程如下:某个智能体(agent)的初始状态为s0,然后从 A 中挑选一个动作a0执行,执行后,agent 按Psa概率随机转移到了下一个s1状态,s1∈ Ps0a0。然后再执行一个动作a1,就转移到了s2,接下来再执行a2…,我们可以用下面的图表示状态转移的过程。

        

 

MDP的解是一个策略(一个有时间先后的行动序列),当给定当前系统任意状态S时,系统采取最优策略A,然后获得最大回报。所以 MPD就是在寻找一个最优行动的序列。

 

所以要寻找这样的一个策略,就需要由有一个策略评估评估函数。来评估一个行动和策略的期望回报。

 

第一个式子说的是:

           对于策略π,和系统当前状态x0, T步累计奖赏=T步累计汇报和/T

           最终等于 在状态x下采用a的概率*再状态x下采用a转移到x'的概率*(转移到x'的回报 + v(T-1时刻))

           最终计算所有状态即可。

 

 

具体的优化过程:

            选取一个策略,然后在沿着 回报最大化的方向改进。最后直到不能在进一步。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值