基于多智能体强化学习的自动公交车队控制
Autonomous Bus Fleet Control Using Multiagent Reinforcement Learning
介绍
- 存在噪声:因为随机到达和对环境不完全的观察——提出结合先进策略梯度算法的多智能体强化学习方法
- 相对于启发式算法、动态规划算法,强化学习方法在随机和高维情况下是有效的
- 主要贡献
- 1、**建模:**提出了多智能体强化学习方法来解决公交车队调度问题
- 2、开发了**仿真平台(基于SimPy)**用于评估算法
- 3、提出的强化学习方法优于其他方法
提出的MARL方法
- 多agent期望收益梯度(公式5),每个agent有确定的策略 μ = { μ θ 1 , . . . , μ θ N } μ=\{μ_{θ1},...,μ_{θN}\} μ={ μθ1,...,μθN},其中每个s由所有的agent观察值组成。
Q i μ θ Q^{μθ}_i Qiμθ为:
使用PPO代替DPG,使得目标在策略更新大小的约束下最大化:
由于β值不好选取,提出修改(公式8):其中 r t ( θ ) = π θ ( a t ∣ s t ) / π θ o l d ( a t ∣ s t ) r_t(θ)=πθ(a_t|s_t)/πθ_{old}(a_t|s_t) rt(θ</