【五分钟Paper】基于参数化动作空间的强化学习

小小何先生

已于 2022-09-08 20:38:55 修改

阅读量1.5k

点赞数 1

分类专栏：顶会期刊论文阅读笔记文章标签：机器学习人工智能 python

于 2022-07-23 23:33:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39059031/article/details/125953763

版权

顶会期刊论文阅读笔记专栏收录该内容

37 篇文章

订阅专栏

该论文提出了一种名为Q-PAMDP的强化学习算法，用于处理带有参数的离散动作空间问题。通过交替学习离散动作和连续动作参数，智能体能够在每个决策步选择合适的动作和参数。算法通过优化策略参数，实现了对离散动作和连续参数的联合优化，从而提高了决策效率。论文还探讨了两种参数更新方法，并提供了理论分析。虽然没有详述具体效果，但这种方法有望在复杂的决策任务中提高性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

论文题目：Reinforcement Learning with Parameterized Actions

所解决的问题？

背景

参数化动作空间说的就是一个离散动作带有一个向量化的参数。在每个决策步，一个智能体需要决策哪个动作去执行，并且这个动作带哪个参数去执行。

所采用的方法？

提出Q-PAMDP算法，交替学习离散动作和连续动作。那么对于在状态 $s$ 下选择某个参数化动作的概率就可以表示为 $\pi(a,x|s)$ 。对于离散动作的选择可以表示为 $\pi^{d}(a|s)$ ，对于动作参数的选择可以表示为 $\pi^{a}(x|s)$ ，整个策略的概率可以表示为：

$\pi(a,x|s) = \pi^{d}(a|s)\pi^{a}(x|s)$

选择离散动作的策略参数用 $w$ 表示，则为 $\pi_{w}^{d}(a|s)$ ，参数化动作策略用一个参数集合表示 $\theta$ ，定义为 $\pi_{\theta}^{a}(x|s)$ ，这个参数化集合可以表示为 $\theta = [\theta_{a_{1}}, \cdots, \theta_{a_{k}}]$ 。

想要优化参数，第一种方式就是直接优化 $\theta$ 和 $w$ 两个参数：

$J(\theta, \omega)=\mathbb{E}_{s_{0} \sim D}\left[V^{\pi_{\Theta}}\left(s_{0}\right)\right]$

第二种方式是交替更新二者，固定 $\theta$ 的时候可以优化出 $w$ 参数：

$W(\theta)=\arg \max _{\omega} J(\theta, \omega)=\omega_{\theta}^{*}$

之后固定 $w$ 优化 $\theta$ 参数：

$\begin{aligned} J_{\omega}(\theta) &=J(\theta, \omega) \\ H(\theta) &=J(\theta, W(\theta)) \end{aligned}$

其算法伪代码为：

作者还提供了一个理论分析证明，之后要是会用到再补吧。

取得的效果？

所出版信息？作者信息？

参考链接

相关论文

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。