状态价值函数与动作价值函数的关系

1. 状态价值函数

V(s),表示在特定状态下,智能体可以获得的长期累积奖励期望值。它衡量了从当前状态出发,智能体能够获得多大的回报

根据定义,其公式就是【状态价值函数=回报G的期望】,即:

V_{\pi}(s)=E_{t\sim \pi}(G_{t}|s_{t}=s)

2. 动作价值函数

Q(s,a),表示在特定状态下,采取特定动作后,智能体可以获得的长期累积奖励的期望值。它衡量了在给定状态下,采取特定动作所能达到的价值。

根据定义,其公式就是【动作价值函数=特定动作产生的奖励R+下一状态的回报G的期望】,由上文我们知道【状态价值函数=回报G的期望】,因此下一状态的汇报G的期望就可以用V(s')表示,s'为s的下一个状态。所以,动作价值函数的公司为【动作价值函数=特定动作产生的奖励R+下一状态的状态价值函数】,即:

Q(s,a)=R+V(s')

3. 两者的关系

状态价值函数 = 动作1的概率 * 动作1的动作价值函数 + 动作2的概率 * 动作2的动作价值函数 + ...... + 动作t的概率 * 动作t的动作价值函数

假设在一个迷宫中,智能体需要从起点到达终点,每个格子都有一个即时奖励。智能体可以采取上下左右四个动作中的任意一个,但有些动作可能会导致智能体撞到墙上而无法移动。

在这种情况下,状态价值函数V(s)表示在特定位置(状态)下,智能体可以获得的长期累积奖励的期望值。如果智能体已经走到了一个位置,它可以通过观察周围的格子来预测它将来能够获得的奖励,并据此做出决策。例如,如果智能体在某个位置发现它周围的所有格子都是负奖励,那么它可能会选择朝着终点方向走,因为那个方向上可能会有更高的奖励。

动作价值函数Q(s,a)表示在特定位置(状态)下,采取特定动作后,智能体可以获得的长期累积奖励的期望值。例如,在某个位置上,智能体可以选择采取上下左右四个动作中的任意一个,它可以通过动作价值函数来评估每个动作的价值,从而选择最优的动作。如果采取某个动作后预期能够获得更高的奖励,那么智能体就会选择这个动作。

在这个例子中,状态价值函数和动作价值函数都是用来评估智能体行为的价值。状态价值函数衡量的是每个位置的价值,而动作价值函数则衡量的是每个位置上采取不同动作的价值通过使用这两个函数,智能体可以确定最优策略,并成功地到达终点。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
回报(reward)和动作价值函数(action-value function)之间有一种紧密的关系。回报是在执行某个动作后获得的即时奖励,而动作价值函数则是对于给定状态动作,预测未来所能获得的累计回报。 具体来说,动作价值函数Q(s, a)表示在状态s下选择动作a所能获得的累计回报。它可以用来评估在给定状态下选择不同动作的优劣,从而指导智能体进行决策。 在强化学习中,通常使用贝尔曼方程(Bellman equation)来描述动作价值函数和回报之间的关系。贝尔曼方程表达了当前状态下的动作价值函数与下一个状态动作价值函数之间的关系。根据贝尔曼方程,动作价值函数可以通过将当前状态下的即时奖励与下一个状态动作价值函数相结合来更新。 具体而言,贝尔曼方程可以表示为:Q(s, a) = r + γ * max(Q(s', a')),其中r是执行动作a后获得的即时奖励,γ是折扣因子(用于衡量未来奖励的重要性),s'是执行动作a后的下一个状态,a'是在下一个状态s'下选择的最佳动作。 通过贝尔曼方程,动作价值函数可以通过不断迭代更新来逼近最优值函数,从而指导智能体在不同状态下选择最佳动作。 总结而言,回报和动作价值函数之间的关系可以通过贝尔曼方程来建立,回报是动作价值函数的一部分,动作价值函数则用于预测未来所能获得的累计回报。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值