强化学习笔记5 策略学习

Fitst_L

已于 2023-03-12 16:21:26 修改

阅读量156

点赞数

分类专栏：强化学习文章标签：学习人工智能 Powered by 金山文档

于 2023-03-12 11:23:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50338046/article/details/129466130

版权

本文介绍了策略学习的概念，特别是策略网络在强化学习中的应用。策略网络通过神经网络近似策略函数，根据状态输出动作的概率，并通过策略梯度算法优化网络参数，以提高策略的质量。同时，文章探讨了如何评价策略网络的好坏，利用状态价值函数Vπ和V(st;ϴ)来衡量，并介绍了actor-critic方法在策略梯度计算中的作用。

摘要由CSDN通过智能技术生成

笔记4里学习了价值学习，就是用神经网络近似一个Q*函数，把状态S输入其中，这个神经网络就会为该状态下的每一个动作打分，选择分数最高的那个动作即可。笔记5是关于策略学习的，就是用神经网络近似π函数，把状态S输入其中，这个神经网络（策略网络）就会输出该状态下的每一个动作的概率，用这些概率做一个随机抽样得到at。

策略网络policy network（Π(a|s;ϴ)）

回忆：策略函数Π(a|s)，是概率密度函数，用它来自动控制agent运动，输入当前状态S，他会输出一个概率分布，是每一个动作的一个概率值。然后随机抽样得到动作a，概率越大抽中的可能性就越大。抽中动作a，那agent就做a这个动作。

策略学习中，用一个深度神经网络近似策略函数，这个神经网络称为策略网络（policy network），把他记为Π(a|s;ϴ)。这里的ϴ是神经网络的参数，一开始ϴ是随机初始化的，然后我们通过学习来改进ϴ。

把状态S输入Π(a|s;ϴ)中，这个策略网络就会输出该状态下的每一个动作的概率，用这些概率做一个随机抽样得到at，agent执行该动作即可。

如何评价策略网络的好坏

我们用深度神经网络近似策略函数，得到策略网络。怎么知道这个策略网络的好坏呢？

①状态价值函数Vπ：Vπ是动作价值函数Qπ的期望。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记5 策略学习

我们希望得到一个策略函数π，然后用π自动控制agent运动，每当agent观测到状态at，agent就用π函数算出来一个概率分布，然后随机抽样得到一个动作at；直接求策略函数比较困难，所以我们要用神经网络来近似策略函数，这个神经网络被称为策略网络policy network，记作Π(a|s;ϴ)；ϴ是神经网络的参数，一开始随机初始化，然后通过策略梯度policy gradient算法来学习参数ϴ；策略梯度是价值函数V关于ϴ的导数；
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。