马尔可夫链和价值评估的Q值与V值

马尔科夫链

1. 智能体在环境中,观测到状态(S)

2.状态(S)被输入到智能体中,智能体经过计算,选择动作(A)

3.动作(A)使智能体进入另外一个状态(S),并返回奖励(R)给智能体

4.智能体根据返回,调整自己的策略。重复以上步骤,一步一步创建马尔科夫链

其中的不确定性:

第一个,是“选择”的过程,智能体的“选择”会影响到下一个状态。比如state/obsevation一样,agent对于action的选择也不同,这种不同动作之间的选择,称为智能体的策略。我们的任务就是找到一个策略,能够获得最多的奖励。

第二个不确定性,是环境的随机性,这是智能体无法控制的。比如action一样但反馈回来的state/obsevation或reward也可能有所不同。但马尔科夫链允许有不确定性存在。

所以这种不确定性来自两个方面:1.智能体的行动选择(策略) 2.环境的不确定性。

Q值与V值

1.引入原因?

在强化学习中,我们会用奖励R作为智能体学习的引导,期望智能体获得更多的奖励。但是更多时候我们不能单纯通过奖励R来衡量一个动作的好坏,我们必须用长远的眼光来看待问题。我们要把未来的奖励也计算到当前状态下,再进行决策

举例,在下其中,局中下的一步获得的奖励R并不能直接反映出它的作用,但是在结束前却能发挥至关重要的作用。

为了方便,我们希望有一种方法衡量agent做出每一种选择的(价值)。

2. 定义

评估动作Action的价值,我们称为Q值:它代表了智能体选择这个动作后,一直到最终状态奖励综合的期望。

评估状态State的价值,我们称为V值:它代表了智能体在这个状态下,一直到最终状态的奖励综合期望。

价值越高,表示当前到最终状态获得平均奖励会越高,因为智能体的最终目标是获得更多的奖励,所以智能体在当前状态,只需要选择价值最高的动作即可

3.详解Q值和V值,以及它们之间的关系

V值

1.我们从状态S点出发,并影分身出若干个自己

2.每个分身按照当前策略选择行为

3.每个分身一直走到最终状态,并计算一路上获得的所有奖励的综合(G)

4.我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。

小黑板:V值会根据不同策略有所变化。

Q值

Q值和上面的V值的定义是相似的,只不过Q值是在S0状态下,选择动作A,影分身后进行统计平均。

小黑板:Q值和策略没有直接关系,而与环境状态转移概率相关,而环境的状态转移概率是不变的。

Q值与V值的关系

1.都是马尔可夫树上的节点。

2.价值评价方式是一样的:

     从当前节点出发  ------   一直到最终状态  -------- 所有奖励的期望值

3.V值就是子节点Q的期望!但是注意V值与策略相关!

   Q值就是子节点V的期望!但是要主要将R计算在内!

蒙特卡罗采样回溯计算V值

1.根据策略向前走,只需要记录每一次状态转移,获取多少奖励R即可

2.从终点向前走,一边走一边计算G值,G值等于上一个状态的G值,乘以一定的折扣(gamma),再加上R

3.当我们经过多次试验后,我们可能会经过某个状态多次,通过回溯,也会有多个G值,所以通过G值总和求平均的方式来获取V值。

4.G值和V值的关系,V值是多个G值求和的平均数

缺点:每次更新G值都需要从头到尾走一遍,需要很长时间。

Monte Carlo 估算状态V值

新平均  =  旧平均  +  步长 * (新加入元素  -  旧平均),G是更新目标

TD优化MC算法

时序差分方法又叫TD算法,TD算法对MC算法的改进:

1.TD只需要走N步,就可以回溯更新

2.和MC一样,需要走N步,每经过一次状态,把奖励记录下来,然后开始回溯

3.如何计算V呢?假设经过N步,到达最终状态,如果之前没有走过,记作0;如果走过,这个状态的V值,记作当前值

在TD算法中把更新目标由G更换为  R(奖励) + gamma(折扣值) *  V(状态V值)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

༄yi笑奈何

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值