datawhale强化学习打卡第二、三章

马尔可夫决策过程

1.马尔科夫链及马尔可夫奖励过程

Markov Property

如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。

Markov Process/Markov Chain

在这里插入图片描述
可以用状态转移矩阵(State Transition Matrix) P 来描述状态转移
在这里插入图片描述

Markov Reward Process(MRP)

马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。奖励只当其变换到某一个状态的时候,可以获得的结果。同时,定义一些概念:

1.Horizon 是指一个回合的长度(每个回合最大的时间步数),它是由有限个步数决定的。
2.Return(回报) 说的是把奖励进行折扣后所获得的收益。Return 可以定义为奖励的逐步叠加,如下式所示:
在这里插入图片描述
这里有一个叠加系数,越往后得到的奖励,折扣得越多。这说明我们其实更希望得到现有的奖励,未来的奖励就要把它打折扣。(这里容易使人联想到其在金融股票投资等的应用,如等一个月赚1000元与等一年赚2w,前者更能够被接受。)
Discount factor 可以作为强化学习 agent 的一个超参数来进行调整,然后就会得到不同行为的 agent。

state value function:对于 MRP,state value function 被定义成是 return 的期望,如下式所示:
在这里插入图片描述

Bellman Equation(贝尔曼等式)

Bellman Equation(贝尔曼等式)
我的理解是,未来打了折扣的奖励加上现在状态下可以立刻获得的奖励,就组成了这个等式。

Law of Total Expectation(全期望公式)

仿照Law of Total Expectation(全期望公式)的证明过程来证明下面的式子:
在这里插入图片描述
全期望公式如下所示:
在这里插入图片描述
证明过程如下:
在这里插入图片描述
由此,bellman推导过程如下:
在这里插入图片描述
求解得到v的解析解,由于其算法复杂度过高(O = N^3),只适用于很小量的MRP
在这里插入图片描述

求解方法

主要包含
1.动态规划的方法,
2.蒙特卡罗的办法(通过采样的办法去计算它),
3.时序差分学习(Temporal-Difference Learning)的办法。 Temporal-Difference Learning 叫 TD Leanring,它是动态规划和蒙特卡罗的一个结合。

1.动态规划的方法:一直去迭代bellman equation,当其收敛时,可以得到它的一个状态。
在这里插入图片描述

2.蒙特卡罗方法:从某状态开始,产生一个轨迹及奖励,即可得到折扣奖励g,累计到一定轨迹后,直接用gt除以轨迹数量,就会得到价值。
在这里插入图片描述

Markov Decision Process(MDP)

相比于MRP,MDP多了决策过程,在状态专业中也多了一个动作,
在这里插入图片描述
且价值函数多了一个条件在这里插入图片描述
知道当前状态过后,我们可以把当前状态带入 policy function,然后就会得到一个概率,即
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值