强化学习笔记5 策略学习

本文介绍了策略学习的概念,特别是策略网络在强化学习中的应用。策略网络通过神经网络近似策略函数,根据状态输出动作的概率,并通过策略梯度算法优化网络参数,以提高策略的质量。同时,文章探讨了如何评价策略网络的好坏,利用状态价值函数Vπ和V(st;ϴ)来衡量,并介绍了actor-critic方法在策略梯度计算中的作用。
摘要由CSDN通过智能技术生成

笔记4里学习了价值学习,就是用神经网络近似一个Q*函数,把状态S输入其中,这个神经网络就会为该状态下的每一个动作打分,选择分数最高的那个动作即可。笔记5是关于策略学习的,就是用神经网络近似π函数,把状态S输入其中,这个神经网络(策略网络)就会输出该状态下的每一个动作的概率,用这些概率做一个随机抽样得到at。

  1. 策略网络policy network(Π(a|s;ϴ))

回忆:策略函数Π(a|s),是概率密度函数,用它来自动控制agent运动,输入当前状态S,他会输出一个概率分布,是每一个动作的一个概率值。然后随机抽样得到动作a,概率越大抽中的可能性就越大。抽中动作a,那agent就做a这个动作。

策略学习中,用一个深度神经网络近似策略函数,这个神经网络称为策略网络(policy network),把他记为Π(a|s;ϴ)。这里的ϴ是神经网络的参数,一开始ϴ是随机初始化的,然后我们通过学习来改进ϴ。

把状态S输入Π(a|s;ϴ)中,这个策略网络就会输出该状态下的每一个动作的概率,用这些概率做一个随机抽样得到at,agent执行该动作即可。

  1. 如何评价策略网络的好坏

我们用深度神经网络近似策略函数,得到策略网络。怎么知道这个策略网络的好坏呢?

①状态价值函数Vπ:Vπ是动作价值函数Qπ的期望。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值