【五分钟Paper】基于参数化动作空间的强化学习

该论文提出了一种名为Q-PAMDP的强化学习算法,用于处理带有参数的离散动作空间问题。通过交替学习离散动作和连续动作参数,智能体能够在每个决策步选择合适的动作和参数。算法通过优化策略参数,实现了对离散动作和连续参数的联合优化,从而提高了决策效率。论文还探讨了两种参数更新方法,并提供了理论分析。虽然没有详述具体效果,但这种方法有望在复杂的决策任务中提高性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 论文题目:Reinforcement Learning with Parameterized Actions

所解决的问题?

背景

参数化动作空间说的就是一个离散动作带有一个向量化的参数。在每个决策步,一个智能体需要决策哪个动作去执行,并且这个动作带哪个参数去执行。

所采用的方法?

提出Q-PAMDP算法,交替学习离散动作和连续动作。那么对于在状态 s s s下选择某个参数化动作的概率就可以表示为 π ( a , x ∣ s ) \pi(a,x|s) π(a,xs)。对于离散动作的选择可以表示为 π d ( a ∣ s ) \pi^{d}(a|s) πd(as),对于动作参数的选择可以表示为 π a ( x ∣ s ) \pi^{a}(x|s) πa(xs),整个策略的概率可以表示为:

π ( a , x ∣ s ) = π d ( a ∣ s ) π a ( x ∣ s ) \pi(a,x|s) = \pi^{d}(a|s)\pi^{a}(x|s) π(a,xs)=πd(as)πa(xs)

选择离散动作的策略参数用 w w w表示,则为 π w d ( a ∣ s ) \pi_{w}^{d}(a|s) πwd(as),参数化动作策略用一个参数集合表示 θ \theta θ,定义为 π θ a ( x ∣ s ) \pi_{\theta}^{a}(x|s) πθa(xs),这个参数化集合可以表示为 θ = [ θ a 1 , ⋯   , θ a k ] \theta = [\theta_{a_{1}}, \cdots, \theta_{a_{k}}] θ=[θa1,,θak]

想要优化参数,第一种方式就是直接优化 θ \theta θ w w w两个参数:

J ( θ , ω ) = E s 0 ∼ D [ V π Θ ( s 0 ) ] J(\theta, \omega)=\mathbb{E}_{s_{0} \sim D}\left[V^{\pi_{\Theta}}\left(s_{0}\right)\right] J(θ,ω)=Es0D[VπΘ(s0)]

第二种方式是交替更新二者,固定 θ \theta θ的时候可以优化出 w w w参数:

W ( θ ) = arg ⁡ max ⁡ ω J ( θ , ω ) = ω θ ∗ W(\theta)=\arg \max _{\omega} J(\theta, \omega)=\omega_{\theta}^{*} W(θ)=argωmaxJ(θ,ω)=ωθ

之后固定 w w w优化 θ \theta θ参数:

J ω ( θ ) = J ( θ , ω ) H ( θ ) = J ( θ , W ( θ ) ) \begin{aligned} J_{\omega}(\theta) &=J(\theta, \omega) \\ H(\theta) &=J(\theta, W(\theta)) \end{aligned} Jω(θ)H(θ)=J(θ,ω)=J(θ,W(θ))

其算法伪代码为:

作者还提供了一个理论分析证明,之后要是会用到再补吧。

取得的效果?

所出版信息?作者信息?

参考链接

相关论文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值