Learning to Simulate Crowds with Crowds论文阅读

图 1:我们提出了一种利用深度强化学习模拟人群的新方法。学习最佳人群导航行为是由人群反馈驱动的,这会驱动强化学习策略的最佳参数和奖励。最后,我们使用众包贝叶斯方法建议的最佳学习参数训练的策略来模拟代理。

摘要:

通过强化学习控制代理行为在多个领域一直引起人们的兴趣。其中一个主要焦点是模拟多智能体群体,在移动到目标的同时避免碰撞。尽管避免碰撞很重要,但也有必要捕获现实的预期导航行为。我们引入了一种新颖的方法,其中包括:1)用于学习最优导航策略的强化学习方法,2)用于纠正策略导航决策的基于位置的约束,以及3)用于选择策略控制参数的众包框架。基于最佳选择的参数,我们训练了多智能体导航策略,并在人群基准上进行了演示。我们将我们的方法与现有的工作进行比较,并证明我们的方法实现了卓越的多代理行为。

图 2:从左到右:代理在包含多个障碍物的环境中移动。

介绍

模拟人群的运动对从机器人到计算机图形应用等领域都有影响。尽管最近取得了很多进展 [Toll 和 Pettré 2021],但模拟这种运动仍然具有挑战性,因为每个群体智能体都会采取独立的导航决策,从而影响其他智能体和环境当前和

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值