Fitst_L-CSDN博客

原创强化学习笔记6 Actor-Critic方法

之前学习了价值学习和策略学习，这篇笔记所记录的Actor-Critic方法，用到了策略网络和价值网络这两个神经网络，然后通过环境给的奖励来学习这两个网络；Actor是策略网络，用来控制agent运动，可当做运动员；Critic是价值网络，用来给动作打分，可以把它看做裁判。

2023-03-13 09:23:31 308

我们希望得到一个策略函数π，然后用π自动控制agent运动，每当agent观测到状态at，agent就用π函数算出来一个概率分布，然后随机抽样得到一个动作at；直接求策略函数比较困难，所以我们要用神经网络来近似策略函数，这个神经网络被称为策略网络policy network，记作Π(a|s;ϴ)；ϴ是神经网络的参数，一开始随机初始化，然后通过策略梯度policy gradient算法来学习参数ϴ；策略梯度是价值函数V关于ϴ的导数；

2023-03-12 11:23:14 148

原创强化学习笔记4 DQN

用DQN(一个用来打分的Q*函数，也是一个神经网络），st作为输入，给所有的动作打分，选出分数最高的动作，作为at；并且，在我们得到R，Q(S,A)，maxQ(S',a)后，需要更新我们的神经网络（用来打分的Q函数），更新公式如上，更新之后给状态S的打分便会是比之前更准确的了，是原来所打分数之上加了误差，便更接近真实值。预测值Q，与目标真实值y，也就相当于【S下的Q值】与【用S'下的Q值更新后的S的Q值，此时的Q更接近S下的真实值】，只不过这里求导，用梯度下降更新参数w。也就是预测值和真实值无差。

2023-03-10 19:27:04 165

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_50338046的博客

原创强化学习笔记6 Actor-Critic方法

原创强化学习笔记5 策略学习

原创强化学习笔记4 DQN

原创强化学习笔记3 回报和价值函数

原创强化学习笔记2 一些基本概念的理解

原创强化学习学习笔记1 一些概率论知识

空空如也

空空如也

原创 强化学习笔记6 Actor-Critic方法

原创 强化学习笔记5 策略学习

原创 强化学习笔记4 DQN

原创 强化学习笔记3 回报和价值函数

原创 强化学习笔记2 一些基本概念的理解

原创 强化学习 学习笔记1 一些概率论知识

空空如也

空空如也

原创强化学习笔记6 Actor-Critic方法

原创强化学习笔记5 策略学习

原创强化学习笔记4 DQN

原创强化学习笔记3 回报和价值函数

原创强化学习笔记2 一些基本概念的理解

原创强化学习学习笔记1 一些概率论知识