强化学习
文章平均质量分 75
patrickpdx
目前为研究生
展开
-
多智能体强化学习论文导读
Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning原创 2023-04-12 11:04:14 · 816 阅读 · 0 评论 -
Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition论文导读
coach agent 能够观测到global state, 并可以根据global state产生信息发送给agent, 信息是定长的, 文中称为strategy, 是一个vector, 记作。. agent采取策略的时候将会参考coach agent发送的strategy信息. coach agent并不是每个step都给agent发送信息, 而是每。的目标. 此目标函数第1项表示: 完成这项任务的agent中能力最大的agent的评分, 第2项表示: 1-被派去的agent的数量.原创 2023-04-10 16:09:13 · 203 阅读 · 0 评论 -
强化学习论文中的算法框图
摘自 Ding, R., Xu, Y., Gao, F., & Shen, X.(. (2022). Trajectory Design and Access Control for Air–Ground Coordinated Communications System With Multiagent Deep Reinforcement Learning. IEEE Internet of Things Journal, 9, 5785-5798.摘自 Zhang, W., Wang, Q., Liu原创 2022-06-03 11:13:29 · 687 阅读 · 1 评论 -
强化学习 reward 曲线的绘制
每隔一段取一个均值,然后把均值曲线绘制出来,包含全部点的曲线淡化处理摘自 Z. Mou, Y. Zhang, F. Gao, H. Wang, T. Zhang and Z. Han, “Deep Reinforcement Learning based Three-Dimensional Area Coverage with UAV Swarm,” in IEEE Journal on Selected Areas in Communications, doi: 10.1109/JSAC.2021.3.原创 2022-05-21 17:56:15 · 7926 阅读 · 2 评论 -
强化学习重点文献汇总
强化学习重点文献总结原创 2022-03-13 20:42:35 · 5437 阅读 · 0 评论 -
如何给python环境安装OpenAI的Multi-Agent Particle Environment库
完整克隆整个代码包记下地址,例如 C:\Users\ABC\Downloads\multiagent-particle-envs-master打开 Anaconda Promptactivate + 你创建的环境的名称输入pip install -e C:\Users\ABC\Downloads\multiagent-particle-envs-master安装完成参考博客......原创 2022-02-22 23:01:48 · 3398 阅读 · 0 评论 -
Policy Gradient Algorithm
Policy Gradient Algorithms连续动作空间我们可以把待求的π∗(s)\pi^{*}(s)π∗(s)看作是一个stochastic policy:π∗(a∣s)={1a=π∗(s)0a≠π∗(s)\pi^{*}(a|s)=\left\{\begin{array}{rcl}1 & & {a=\pi^{*}(s)}\\0 & & {a\neq \pi^{*}(s)}\end{array} \right.π∗(a∣s)={10a=π∗(s)原创 2021-11-13 23:26:44 · 994 阅读 · 0 评论