【深度强化学习】策略网络和价值函数网络分别是什么?

1. 策略网络(Policy Network):

 策略网络是一个神经网络,用于建模智能体的策略,即在给定状态下选择动作的概率分布

  •  \pi_\theta(a|s)是在策略网络下,在状态s下选择动作a的概率,其中\theta是策略网络的参数。
  •  P(a|s;\theta)表示策略网络的输出概率

2. 价值函数网络(Value Function Network):

       价值函数网络是一个神经网络,用于估计在给定状态或采取某个动作后能够获得的期望累积回报

  • 动作价值函数(Action Value Function): 估计在给定状态s采取某个动作后能够获得的期望累积回报。

Q(s, a) = \mathbb{E}\left[ R_t \mid s_t = s, a_t = a \right]

  • 状态价值函数(State Value Function): 估计在给定状态s按照某个策略采取动作所获得的期望累积回报。

V(s) = \mathbb{E}\left[ R_t \mid s_t = s \right]


总结:

  • 策略网络 指导智能体的决策,提供在给定状态下选择动作的概率
  • 价值函数网络 评估状态或动作的长期价值,帮助智能体学习并优化其策略。
  • 22
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值