基于多智能体强化学习的自动公交车队控制

基于多智能体强化学习的自动公交车队控制

Autonomous Bus Fleet Control Using Multiagent Reinforcement Learning


介绍
  • 存在噪声:因为随机到达和对环境不完全的观察——提出结合先进策略梯度算法的多智能体强化学习方法
  • 相对于启发式算法、动态规划算法,强化学习方法在随机和高维情况下是有效的
  • 主要贡献
    • 1、**建模:**提出了多智能体强化学习方法来解决公交车队调度问题
    • 2、开发了**仿真平台(基于SimPy)**用于评估算法
    • 3、提出的强化学习方法优于其他方法

提出的MARL方法
  • 多agent期望收益梯度(公式5),每个agent有确定的策略 μ = { μ θ 1 , . . . , μ θ N } μ=\{μ_{θ1},...,μ_{θN}\} μ={ μθ1,...,μθN},其中每个s由所有的agent观察值组成。

在这里插入图片描述

Q i μ θ Q^{μθ}_i Qiμθ为:

在这里插入图片描述

使用PPO代替DPG,使得目标在策略更新大小的约束下最大化:

在这里插入图片描述

由于β值不好选取,提出修改(公式8):其中 r t ( θ ) = π θ ( a t ∣ s t ) / π θ o l d ( a t ∣ s t ) r_t(θ)=πθ(a_t|s_t)/πθ_{old}(a_t|s_t) rt(θ</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值