强化学习第二课-马尔科夫决策过程(下)

本节课主要学习马尔科夫决策过程MDP的核心问题:预测Prediction和控制Control。

  • Prediction的意思是说当给定一个马尔科夫决策过程和一个policy,要计算每个状态对应的价值函数value是多少。
  • Control的意思是说去寻找一个最佳的策略,他的输入就是这个马尔科夫决策过程,输出是通过寻找最佳策略,同时输出最佳价值函数和最优策略。
  • 预测和控制都可以通过动态规划来解决。

1 动态规划

马尔科夫决策过程满足动态规划的要求。
在贝尔曼方程中,分解为一个递归的结构,如果子问题和子状态可以得到一个值,未来状态和子状态直接相连,就可以推算出来,那么价值函数就可以储存和重用最佳的解。所以动态规划是解MDP的一个非常有效的方式。
根据策略函数计算当前价值函数:
在这里插入图片描述
在这里插入图片描述
从v1->v2->v3·······->vπ,不断的收敛,最终的vπ就是给定策略下当前状态的价值。
简化成马尔科夫奖励过程的表达形式就更为简洁一些,如下:
在这里插入图片描述
在这里插入图片描述
Policy Evaluation的可视化情况,由近及远不断扩散开来。当run很多次之后,值会进行收敛,收敛到一个稳定的值,每个状态获得一个稳定的value值。
在这里插入图片描述
当所有东西都收敛过后,可以通过极大化Q函数来得到最佳的价值。
Q函数是关于动作和状态的函数,所以可以在Q函数上取一个关于动作action最大化的值,直接提取出最佳策略。
在这里插入图片描述
策略搜索办法有:
1.直接穷举。穷举效率太低。|A|的S次方中策略。
2.搜索最佳策略的方法有两种:

  • 第一,policy iteration
  • 第二,value iteration
    搜索最佳策略的过程也就是MDP的控制过程,最佳策略的特点有:
  • deterministic(确定性的)
  • stationary(固定不动的)
  • 不unique(不是唯一的)

2 Policy Iteration

Policy Iteration也是一个迭代算法:主要由两个步骤组成:
1.Evaluate the policy π(comuting v given current π)
2.Improve the policy by acting greedily with respect to v^π
在这里插入图片描述
3.Compute the state-action value of a policy π:
在这里插入图片描述
4.Compute new policy π(i+1) for alll s属于S following:
在这里插入图片描述
在这里插入图片描述

3.Value Iteration

value iteration的算法

目的是:寻找到一个最优的策略π。
解法:将Bellman optimality backup进行迭代很多次。

4.Policy Iteration和Value Iteration之间的区别

在这里插入图片描述

5.Summary

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值