Policy Gradient

策略梯度DQN结合了策略梯度和深度Q学习的优势,用于解决强化学习中的动作选择问题。它通过神经网络预测动作的概率,以最大化累积回报。相比DQN,PG更容易收敛,支持连续和高维动作空间,并能学习到随机策略。目标函数为累积回报的对数乘以奖励,通过梯度下降优化。此方法在处理复杂决策问题时表现出色。
摘要由CSDN通过智能技术生成

Policy Gradient DQN

利用神经网络来计算某个状态下执行各个动作的Q值是多少,从而辅助我们选取最优的动作,是一个回归问题,研究自变量和因变量之间的关系

通过计算Q值,获取最优动作

方法:
采用策略梯度算法,策略梯度是Policy-Based的回合更新算法,本质上是一个分类问题,就是计算某个状态分类到某个动作的概率是多少,策略就是希望一个动作得到的奖励越多,它被选择的概率也越大。
和DQN一样可以用神经网络来拟合这个过程,先确定我们目标函数,我们要优化的目标是使累积回报最大化,因此:
目标函数=∑▽logπ(a|s, θ)*Rt
loss函数:-∑logπ(a|s, θ)*Rt(一般我们定义loss函数,会对loss函数进行求导,使用梯度下降算法不断使得loss最小,但是我们现在是希望目标函数最大化,所以在实际计算中会对目标函数取负数)
θ:神经网络的参数
π(a|s, θ):在状态s以及给定策略π中执行动作a的概率
Rt:回合结束所获得的折扣累积回报
相比于Value-Based的DQN算法,Policy-Based的PG算法有如下优点:
1.容易收敛,因为每次改善都是对策略进行改进,而Value-Based算法后期迭代的时候有时会发生震荡不收敛
2.支持连续型以及高纬度的动作空间,而Value-Based需要计算所有动作的Q值,因此难以处理连续型的或者高维的动作空间
3.能学到一些随机策略,因为是根据动作的概率选取,即使概率很小,也有可能被选中,而Value-Based每次都选取价值最大的动作 (虽然我们也加入了一些随机探索策略,但是随机性没那么强)

学习记录–引用自学长的微信朋友圈笔记加上自己的理解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值