图 1:我们提出了一种利用深度强化学习模拟人群的新方法。学习最佳人群导航行为是由人群反馈驱动的,这会驱动强化学习策略的最佳参数和奖励。最后,我们使用众包贝叶斯方法建议的最佳学习参数训练的策略来模拟代理。
摘要:
通过强化学习控制代理行为在多个领域一直引起人们的兴趣。其中一个主要焦点是模拟多智能体群体,在移动到目标的同时避免碰撞。尽管避免碰撞很重要,但也有必要捕获现实的预期导航行为。我们引入了一种新颖的方法,其中包括:1)用于学习最优导航策略的强化学习方法,2)用于纠正策略导航决策的基于位置的约束,以及3)用于选择策略控制参数的众包框架。基于最佳选择的参数,我们训练了多智能体导航策略,并在人群基准上进行了演示。我们将我们的方法与现有的工作进行比较,并证明我们的方法实现了卓越的多代理行为。
图 2:从左到右:代理在包含多个障碍物的环境中移动。
介绍
模拟人群的运动对从机器人到计算机图形应用等领域都有影响。尽管最近取得了很多进展 [Toll 和 Pettré 2021],但模拟这种运动仍然具有挑战性,因为每个群体智能体都会采取独立的导航决策,从而影响其他智能体和环境当前和未来的动态。为了应对这些挑战,研究人员对基于学习的方法产生了兴趣,这些方法直接从数据和持续实验中学习导航行为。深度强化学习(DRL)就是这样的框架之一。
理论上,DRL 允许学习每个代理应该采取的最佳导航操作。这组决策被称为导航策略,是通过奖励代理最佳导航操作的训练方案来学习的。强化学习多智能体导航的现有研究增进了我们对这个问题领域的理解 [Kwiatkowski et al 2022]。
遗憾的是,典型的方法侧重于模仿人群动态[Lee et al 2018; Panayiotou 等人 2022]。这些对于某些应用来说可能已经足够了,但缺乏现实世界人群的功能,例如保留个人空间和运动平稳性。
我们通过基于人群的强化学习来解决这些缺陷,以学习现实的多智能体动态。我们工作的主要贡献是用于现实代理导航的新颖奖励函数、嵌入基于位置的多代理动态作为贝叶斯优化学习过程的一部分,以及用于学习最佳奖励参数的框架。
图 3:四边形。从左到右:代理通过执行最省力的动作来避免碰撞,从而保持平稳的轨迹。
方法:
在我们的方法中,每个时间步中的代理独立选择一个速度以及时向前迈出一步。我们的代理使用强化学习方法来确定下一个时间步的最佳速度。下面,我们提供有关学习过程的更多详细信息,包括我们的训练和模拟框架,以及我们如何使用人群来选择最佳的人群模拟结果。
速度选择。在我们的方法中,策略决定代理在状态中应采取的操作。我们的动作是一个速度-角速度元组 ( v,w),其中 v ε [−1.3, 1.3] 和 w ε [−π/4, π/4]。另一方面,状态 s描述环境的配置,其中包括代理和障碍物。智能体使用视觉传感器记录邻近智能体和障碍物的相对位置,以及它们与各自运动目标的相对位置。传感器使用深度图和光线。
奖励。对于学习导航行为,我们的方法依赖于标量奖励 r ∈ R ,它指示代理所采取的导航操作 a 的质量。我们的奖励包括:i) 到目标的距离,激励智能体朝着其运动目标导航,ii) 避免碰撞,惩罚重叠的智能体,iii) 转向质量,惩罚速度、角速度和加速度的大幅变化,iv)个人空间维护,除了避免碰撞之外,还增加了与其他代理的安全距离。
模拟环境。我们使用基于位置的动力学(PBD)作为模拟环境来纠正不切实际的导航决策。例如,如果代理错误地导航到墙壁,除了惩罚此决定之外,我们还会通过将代理移动到正确的位置来纠正它。我们使用短程避碰约束 [Weiss et al 2017] 来解决这种情况。 PBD 每当||xij || ≤ (ri + rj)时调整代理的预测位置x 并且发生碰撞。这里,i 和 j 是代理,并且 xij = xi − xj 。
从偏好中学习。调整多智能体模拟的控制参数很困难,因为实际导航的感知因用户而异。因此,我们进行用户研究以找到最佳策略。我们使用贝叶斯优化来估计用户选择的最佳策略 [Koyama et al 2017]。简而言之,我们向用户展示了描绘人群导航的视频对,其中每个视频都源自不同的策略,并要求用户选择更现实的配对成员。我们的政策空间是通过增加加速、碰撞和个人空间方面的奖励价值而产生的。共有 148 名参与者参与了我们的调查,我们收集了 1524 份回复。在实现方面,我们使用[Koyama et al 2017]提供的优化库。在首选策略上,我们根据从用户选择推断出的最优控制参数来训练导航策略。
执行。在训练中,我们使用固定数量的 10 个智能体和 6 个障碍物,同时随机化它们的起始位置和目标位置。我们通过实验发现这些数字最适合高级代理学习。使用从用户选择推断出的控制参数来训练代理。我们使用近端策略优化(PPO)和随机梯度下降(SGD)。
图 4:人群导航指标。与现有的 RL 工作 [Lee et al 2018] 相比,使用我们策略的智能体表现出更小的加速度和更大的智能体间距离,这标志着更现实的导航行为。
3 结果与讨论
我们提出了一种基于学习的人群模拟方法,其中通过众包推断出最佳参数。我们在常见人群模拟场景中展示了我们的方法,同时将代理数量从 2 改变到 100(图 2),并将我们的代理导航行为与现有的非强化学习算法(例如 ORCA 和 Socialforce)进行比较 [Toll 和 Pettré 2021] ,以及 RL 基线工作 [Lee et al 2018]。总体而言,使用我们的策略的代理生成了更平滑的轨迹,保持了更大的代理内距离(图 4b),更快地到达目的地,并且导致不必要的加速的转向变化更少(图 4a)。
未来的工作有多种途径。首先,我们有兴趣模拟不同的行人场景,以展示异构代理行为,无论是在导航行为还是在物理属性方面的真实性。其次,我们的框架与 PBD 集成,它天真地允许各种约束来模仿复杂的行为,例如以最小的运行时间成本进行分组。最后,在训练期间使用动态环境(例如集成对抗性学习框架来生成以前未见过的场景)也可以帮助代理进一步学习。