- 博客(6)
- 收藏
- 关注
原创 强化学习笔记6 Actor-Critic方法
之前学习了价值学习和策略学习,这篇笔记所记录的Actor-Critic方法,用到了策略网络和价值网络这两个神经网络,然后通过环境给的奖励来学习这两个网络;Actor是策略网络,用来控制agent运动,可当做运动员;Critic是价值网络,用来给动作打分,可以把它看做裁判。
2023-03-13 09:23:31 308
原创 强化学习笔记5 策略学习
我们希望得到一个策略函数π,然后用π自动控制agent运动,每当agent观测到状态at,agent就用π函数算出来一个概率分布,然后随机抽样得到一个动作at;直接求策略函数比较困难,所以我们要用神经网络来近似策略函数,这个神经网络被称为策略网络policy network,记作Π(a|s;ϴ);ϴ是神经网络的参数,一开始随机初始化,然后通过策略梯度policy gradient算法来学习参数ϴ;策略梯度是价值函数V关于ϴ的导数;
2023-03-12 11:23:14 148
原创 强化学习笔记4 DQN
用DQN(一个用来打分的Q*函数,也是一个神经网络),st作为输入,给所有的动作打分,选出分数最高的动作,作为at;并且,在我们得到R,Q(S,A),maxQ(S',a)后,需要更新我们的神经网络(用来打分的Q函数),更新公式如上,更新之后给状态S的打分便会是比之前更准确的了,是原来所打分数之上加了误差,便更接近真实值。预测值Q,与目标真实值y,也就相当于【S下的Q值】 与 【用S'下的Q值更新后的S的Q值,此时的Q更接近S下的真实值】,只不过这里求导,用梯度下降更新参数w。也就是预测值和真实值无差。
2023-03-10 19:27:04 165
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人