图 1:我们提出了一种利用深度强化学习模拟人群的新方法。学习最佳人群导航行为是由人群反馈驱动的,这会驱动强化学习策略的最佳参数和奖励。最后,我们使用众包贝叶斯方法建议的最佳学习参数训练的策略来模拟代理。
摘要:
通过强化学习控制代理行为在多个领域一直引起人们的兴趣。其中一个主要焦点是模拟多智能体群体,在移动到目标的同时避免碰撞。尽管避免碰撞很重要,但也有必要捕获现实的预期导航行为。我们引入了一种新颖的方法,其中包括:1)用于学习最优导航策略的强化学习方法,2)用于纠正策略导航决策的基于位置的约束,以及3)用于选择策略控制参数的众包框架。基于最佳选择的参数,我们训练了多智能体导航策略,并在人群基准上进行了演示。我们将我们的方法与现有的工作进行比较,并证明我们的方法实现了卓越的多代理行为。
图 2:从左到右:代理在包含多个障碍物的环境中移动。
介绍
模拟人群的运动对从机器人到计算机图形应用等领域都有影响。尽管最近取得了很多进展 [Toll 和 Pettré 2021],但模拟这种运动仍然具有挑战性,因为每个群体智能体都会采取独立的导航决策,从而影响其他智能体和环境当前和