文章部分翻译:AG-GAN:注意力群组意识GAN

文章翻译:DOI:10.1109/ICPR48806.2021.9413077

摘要

了解拥挤场景中的人类行为不仅需要分析主体在空间中的位置,还需要分析场景上下文。现有的方法主要依赖于每个行人的运动历史,并通过考虑整个周围社区来模拟人们之间的互动。在我们的方法中,我们通过在基于 LSTM 的生成对抗网络 (GAN) 上应用连贯组聚类和全局注意机制来解决运动预测问题。所提出的模型由一个注意力集中的组感知 GAN 组成,它观察代理的过去运动并预测未来路径,使用 (i) 一个组池模块来模拟邻域交互,以及 (ii) 一个专门关注隐藏状态的注意模块。实验结果表明,我们的提议优于常见基准数据集上的最新模型,并且能够生成社会可接受的轨迹。

在这里插入图片描述

1 介绍

行人的成功路径预测取决于不同的因素,这些因素主要将移动代理的当前位置与过去的运动历史以及与其他行人和环境中障碍物的交互联系起来。社会力模型 (SFM) [4] 根据朝向目的地的吸引力和相对于场景中其他行人和物体的多重排斥力来描述每个行人的物理运动。由于其简单性和有效性,它在文献中得到了广泛的探索[5]。然而,受限于固定数量的手工参数,SFM 在涉及高动态场景时无法提供令人满意的交互建模。最近的工作 [6]、[7]、[8] 采用基于深度学习的方法,例如 LSTM(长短期记忆)[9] 和 GAN(生成对抗网络)[10],能够对时空建模代理之间的依赖关系。基于 LSTM 的方法 [6]、[11]、[12]、[2] 通过对一对多交互进行建模来预测单个行人的轨迹。基于 GAN 的方法 [7]、[8] 专注于在一个步骤中预测场景中所有行人的轨迹,遵循多对多范式。尽管现有的方法已经取得了很好的效果,但它们仍然存在三个主要限制:

  • 与社会相关的行人之间的互动:人与人之间的互动在确定给定行人的未来状态方面发挥着关键作用。开创性的工作提出了池化模块来捕获全局 [7](所有主题)或本地(附近的行人)交互 [6]。然而,当人们一起行走时,他们经常丢弃与社会相关的行人之间的行为线索 [12]、[13]。

  • 仔细利用过去的轨迹:最新的模型 [7]、[8] 通过应用基于 LSTM 的编码器来利用历史路径信息来获取所有观察到的行人的隐藏状态,然后将它们传递给基于 LSTM 的解码器以计算预测对于所有观察到的轨迹。该分析不考虑过去轨迹的每个部分的相关性,例如急转弯的存在。

  • 预测路径的指标:大多数轨迹预测框架使用[14]中的平均位移误差(ADE)作为定量评估指标。点对点位移误差的评估可能并不全面,轨迹相似性或碰撞率等其他因素也值得考虑。

在这项工作中,我们在基于 LSTM 的 GAN 上结合了连贯的群组聚类全局注意力机制,即观察过去运动并预测未来路径的注意力群组感知 GAN(表示为 AG-GAN)。我们首先采用新的群组池化(Group Pooling)模块来模拟邻域交互,然后采用注意力模块专门关注隐藏状态

主要贡献

  • 我们在基于 GAN 的框架中采用组池模块进行轨迹预测,以提高模型的性能。

  • 我们提出了一种新颖的注意力模块,其精确目标是关注过去的轨迹信息和社交互动。

  • 在轨迹预测模型中引入了动态时间规整(DTW)[15],以评估两个预测的相似性。结合碰撞率和常见的 ADE/FDE 测量,我们相信这会导致对不同轨迹预测模型的更全面评估。

2 相关工作

A. 基于RNN的轨迹预测网络

B. 人群中的群组分析

行人之间的社会互动在决定他们未来的轨迹方面起着至关重要的作用。通过对具有相似运动趋势的轨迹进行聚类,可以将行人分组。在 [23] 中,利用传统的 k-means 聚类来学习场景中的不同运动模式。在[24]中,采用支持向量聚类来定义行人之间的群组。在[25]中,相干滤波用于检测拥挤环境中的相干运动模式[26]。

就集体活动的表征而言,葛等人[27]致力于自动检测一起旅行的小团体。易等人[28]研究静止人群与行人之间的相互作用,以分析行人的行为,包括步行路径预测、目的地预测、个性分类和异常事件检测。邵等人[29] 提出了一系列与场景无关的描述符来定量描述群体属性,例如集体性、稳定性、一致性和冲突性。穆萨德等人[13] 模拟与社会相关和与社会无关的行人之间的互惠互动。最近,Sun 等人[19] 介绍了一种基于 LSTM 的方法,该方法具有基于组的社交交互建模。

3 方法

A. 问题定义

预测行人轨迹意味着观察过去的运动历史和场景中行人的交互。行人 i 在时间 t 的位置 p i t p_{i}^{t} pit可以用他的坐标 p i t = ( x i t , y i t ) p_{i}^{t}=\left(x_{i}^{t}, y_{i}^{t}\right) pit=(xit,yit)来表示。行人 i 的轨迹 p i p_{i} pi可以通过过去、现在和未来位置的时间序列来定义:

P i = { p i 0 , p i 1 , … , p i t o b s − 1 , p i t o b s , p i t o b s + 1 , … , p i t pred  } P_{i}=\left\{p_{i}^{0}, p_{i}^{1}, \ldots, p_{i}^{t_{o b s}-1}, p_{i}^{t_{o b s}}, p_{i}^{t_{o b s}+1}, \ldots, p_{i}^{t_{\text {pred }}}\right\} Pi={pi0,pi1,,pitobs1,pitobs,pitobs+1,,pitpred }

如前所述,我们采用基于 GAN 的多对多模型进行交互。所有行人的轨迹预测都是一步完成的。令 N 表示场景中的行人数量,则总轨迹集可以表示为:

S N = { P 1 , P 2 , … , P N } S^{N}=\left\{P_{1}, P_{2}, \ldots, P_{N}\right\} SN={P1,P2,,PN}

在我们的预测问题中,我们观察行人 S o b s N S_{obs}^{N} SobsN从时间 0 到 t o b s t_{obs} tobs的轨迹,并预测一定时间间隔内的未来轨迹 S p r e d N S_{pred}^{N} SpredN,即从 t o b s + 1 t_{obs+1} tobs+1 t p r e d t_{pred} tpred

B. 模型

在人群中行走的行人具有与他人互动的先天能力。他们选择的路径取决于过去的轨迹,并且还考虑了邻近人的运动。过去的轨迹直接揭示了行人未来的运动趋势。根据相关性,轨迹的某些部分可能比其他部分提供更多信息。此外,行人之间的社会关系可能会引起人们的极大兴趣,因为与社会相关的行人往往会彼此靠近并连贯地移动。我们的 AG-GAN 旨在利用运动历史和社会关系改进路径预测。

在这里插入图片描述

如图 2 所示,AG-GAN 由两个关键模块组成:生成器 G 和鉴别器 D。生成器 G 基于编码器-解码器框架,其中包含组池模块和注意机制。它以时间 0 和 t o b s t_{obs} tobs之间的场景中行人的位置作为输入。每个行人都用一个代表隐藏状态的 LSTM 单元建模。隐藏状态通过组池,然后是注意力模块。群组池化模块对与社会相关和无关的行人之间的选择性邻里互动进行建模。

注意力模块专注于过去轨迹中信息最丰富的部分,并改进了邻里交互的建模。

给定编码器生成的轨迹,生成器 G 的 LSTM 解码器计算每个行人的隐藏状态,并能够生成社会上合理的未来轨迹。鉴别器 D 还使用编码器来区分轨迹是否合理。

C. 基于LSTM的生成对抗网络

Goodfellow 等人提出的生成对抗网络 (GAN)[10] 提供了一种独特且成功的方法,该方法专注于训练合成模型的博弈论公式。 GAN 由生成器和鉴别器组成,它们通过相互竞争的目标进行迭代训练。特别是,我们的生成器经过训练以生成一组未来轨迹预测。预测集 S p r e d N S_{pred}^{N} SpredN由 N 个轨迹 P i = { p i t o b s + 1 , … , p i t pred  } P_{i}=\left\{p_{i}^{t_{o b s}+1}, \ldots, p_{i}^{t_{\text {pred }}}\right\} Pi={pitobs+1,,pitpred }。鉴别器被训练以最小化生成的轨迹集与地面实况之间的距离。

生成器 每个行人 p i p_{i} pi的位置通过一个线性层嵌入得到一个固定长度的表示 e i t e_{i}^{t} eit。 LSTM 编码器将嵌入向量 e i t e_{i}^{t} eit作为输入,并通过递归获得时间 t 的隐藏状态:

y e t , h e i t = L S T M e n ( h e i t − 1 , e i t ) y_{e}^{t}, h_{e i}^{t}=L S T M_{e n}\left(h_{e i}^{t-1}, e_{i}^{t}\right) yet,heit=LSTMen(heit1,eit)

其中 y e t y_{e}^{t} yet是编码器的输出,将在注意力模块中使用。为了捕捉邻域中的人与人之间的互动,在我们的组池模块 (PM) 中,直到时间 t o b s t_{obs} tobs的隐藏状态被汇集在张量 T i T_{i} Ti(每个人的)中。我们将每个行人的上下文向量 c i t c^{t}_{i} cit定义为:

c i t = M L P ( T i , h e i t ) c_{i}^{t}=M L P\left(T_{i}, h_{e i}^{t}\right) cit=MLP(Ti,heit)

其中**MLP(·)**是具有 ReLU 激活的多层感知机。请注意,我们模型中的上下文向量 c i t c^{t}_{i} cit仅提供给解码器一次,与 S-LSTM [6] 相比,这会提高速度,并使我们的全局注意力机制的部署可行。解码器的隐藏状态是通过连接从多元正态分布中采样的上下文向量 c i t c^{t}_{i} cit和白噪声向量 z 来计算的,符合 [7]。这个初始化过程可以表示为:

h d i t = [ c i t , z ] h_{d i}^{t}=\left[c_{i}^{t}, z\right] hdit=[cit,z]

然后解码器循环获得预测路径为:

a t = attn ⁡ ( e i t , h d i t , y e t ) T i = P M ( h d 1 t − 1 , … , h d i t ) h d i t = L S T M d e ( M L P ( T i , h d i t ) , a t ) y ^ i t = M L P ( h d i t ) \begin{gathered} a_{t}=\operatorname{attn}\left(e_{i}^{t}, h_{d i}^{t}, y_{e}^{t}\right) \\ T_{i}=P M\left(h_{d 1}^{t-1}, \ldots, h_{d i}^{t}\right) \\ h_{d i}^{t}=L S T M_{d e}\left(M L P\left(T_{i}, h_{d i}^{t}\right), a_{t}\right) \\ \hat{y}_{i}^{t}=M L P\left(h_{d i}^{t}\right) \end{gathered} at=attn(eit,hdit,yet)Ti=PM(hd1t1,,hdit)hdit=LSTMde(MLP(Ti,hdit),at)y^it=MLP(hdit)

其中 e i t e_{i}^{t} eit是行人 i 在时间 t 的相对位置的嵌入表示。另一个 Multi-Layer Perception 也用于获得预测位置 y ^ i t \hat{y}_{i}^{t} y^it

鉴别器 受 [7] 的启发,我们模型中的判别器 D 由 LSTM 编码器、[7] 中提出的隐藏池化模块和 MLP 分类器组成。根据 Qi 等人的说法[30],基于 MLP 和对称函数的隐藏池化模块能够捕获全局社交交互上下文,即感兴趣的行人与场景中所有其他人之间的交互。与生成器 G 中的组池化不同,我们在这里采用隐藏池化模块 [7],以提高 D 的辨别能力。给定观察到的轨迹的集合 S o b s N S_{obs}^{N} SobsN,我们用 N 个轨迹的地面实况集 S g t N S_{gt}^{N} SgtN和一组 N 个预测轨迹 S p r e d N S_{pred}^{N} SpredN,如方程式7:

L i t = L S T M e n ( [ S o b s N , S N ] , h i t ) = { 1  if  S N = S g t N 0  if  S N = S p r e d N L_{i}^{t}=L S T M_{e n}\left(\left[S_{o b s}^{N}, S_{N}\right], h_{i}^{t}\right)= \begin{cases}1 & \text { if } S_{N}=S_{g t}^{N} \\ 0 & \text { if } S_{N}=S_{p r e d}^{N}\end{cases} Lit=LSTMen([SobsN,SN],hit)={10 if SN=SgtN if SN=SpredN

其中 L i t L_{i}^{t} Lit是输入轨迹的标签,即1(真)表示社会可接受的轨迹,0(假)表示不可接受的轨迹。

损失器 对抗性损失是 GAN 的标准训练过程,在两人最小-最大游戏中,表示如下:

L G A N ( L i t , L ^ i t ) = min ⁡ G max ⁡ D E S g t N [ L i t log ⁡ ( L ^ i t ) ] + E S p r e d N [ ( 1 − L i t ) log ⁡ ( 1 − L ^ i t ) ] \begin{gathered} \mathcal{L}_{G A N}\left(L_{i}^{t}, \hat{L}_{i}^{t}\right)=\min _{G} \max _{D} \mathrm{E}_{S_{g t}^{N}}\left[L_{i}^{t} \log \left(\hat{L}_{i}^{t}\right)\right]+ \\ \mathrm{E}_{S_{p r e d}^{N}}\left[\left(1-L_{i}^{t}\right) \log \left(1-\hat{L}_{i}^{t}\right)\right] \end{gathered} LGAN(Lit,L^it)=GminDmaxESgtN[Litlog(L^it)]+ESpredN[(1Lit)log(1L^it)]

与之前的工作 [7]、[8] 一致,我们还使用 L2 损失来训练 GAN,如方程式所示。 9. 通过使用 L2 损失,GAN 可以直观地学习预测每个代理的未来路径。此外,品种损失也用于鼓励多样化的生成。对于每个场景,我们通过从多元正态分布中随机采样白噪声 z 来生成 k 个可能的预测,并选择 L2 意义上的最佳生成作为我们的预测。

L L 2 ( S g t N , S p r e d N ) = min ⁡ k ∥ S g t N − S p r e d N ∥ 2 \mathcal{L}_{L 2}\left(S_{g t}^{N}, S_{p r e d}^{N}\right)=\min _{k}\left\|S_{g t}^{N}-S_{p r e d}^{N}\right\|^{2} LL2(SgtN,SpredN)=kminSgtNSpredN2

根据 [31] 中轨迹预测的受控实验,只有对抗性损失和 L2 损失相结合才能在 GAN 框架中呈现真实的轨迹。因此,我们的 AG-GAN 中的损失函数由原始 GAN 损失 L G A N L_{GAN} LGAN和L2损失 L L 2 L_{L2} LL2组成,可以定义为:

L = L G A N + λ L L 2 \mathcal{L}=\mathcal{L}_{G A N}+\lambda \mathcal{L}_{L 2} L=LGAN+λLL2

其中λ是L2损失的正则化权重。

D. 群组池化

拥挤场景中行人的运动很大程度上受到与附近其他人的互动的影响,而这些互动又受到他们相互关系的影响。与 [12] 中的工作类似,我们为生成器 G 提出了一个池化模块,该模块仅考虑在附近没有连贯移动的行人的交互。这种设计选择背后的想法是,沿同一方向(因此连贯地)行走的行人共享一些兴趣,例如相同的目标,或者愿意交谈和互动。我们可以利用这种行为线索来提高路径预测方面的性能。为此,我们首先使用相干滤波 [25] 来检测人群中连贯行走的人,然后采用 Alahi 等人提出的社会池化方法。 [6] 仅对与社会无关的行人之间的交互进行建模

在这里插入图片描述

群组聚类 相干运动揭示了人群中粒子的集体运动。相干滤波能够推断相干邻居不变性,其测量相干移动的行人之间的局部时空关系。相干滤波用于首先检测场景中行人的相干运动。然后,创建连贯移动的点簇。出于我们的目的,每个点代表一个行人,使用提供的地面实况坐标而不失一般性。随着时间的推移,集群可以进化、删除和出现新的集群,目标是将每个行人 i 分配给集群 s i s_{i} si。相干滤波的输出由相干运动的人的集合 s i ( i = s_{i}(i= si(i= 1 , 2 , … , n 1,2, \ldots, n 1,2,,n )组成。一个站着不动或独自行走的行人被认为属于他自己的集合。

池化模块 我们扩展了 S-LSTM [6] 和 S-GAN [7] 中应用的社会池化模块。在我们的 AG-GAN 的生成器 G 中,池化模块允许行人共享他们的隐藏状态,从而使网络能够模拟附近人们的互动。

池化模块中的隐藏状态 h t i h_{t}^{i} hti表示场景中第 t 帧处的第 i 个行人。隐藏状态维度设置为 D,邻域大小设置为 N 0 N_{0} N0。一个张量 H t i H_{t}^{i} Hti表示代理 i 的邻域,它在等式11中被描述为 N 0 N_{0} N0× N 0 N_{0} N0×D的尺寸:

H t i ( m , n , : ) = ∑ j ∈ N l m n [ x t j − x t i , y t j − y t i ] l i j [ s i ≠ s j ] h t − 1 j H_{t}^{i}(m, n,:)=\sum_{j \in N} l_{m n}\left[x_{t}^{j}-x_{t}^{i}, y_{t}^{j}-y_{t}^{i}\right] l_{i j}\left[s_{i} \neq s_{j}\right] h_{t-1}^{j} Hti(m,n,:)=jNlmn[xtjxti,ytjyti]lij[si=sj]ht1j

其中 l m n [ x , y ] l_{m n}[x,y] lmn[x,y]是选择邻域内行人的指示函数,定义为:

l m n [ x , y ] = { 0  if  [ x , y ] ∈  cell  m n 1  if  [ x , y ] ∉  cell  m n l_{m n}[x, y]= \begin{cases}0 & \text { if }[x, y] \in \text { cell } m n \\ 1 & \text { if }[x, y] \notin \text { cell } m n\end{cases} lmn[x,y]={01 if [x,y] cell mn if [x,y]/ cell mn

两个行人 i 和 j 属于同一个相干集 s i s_{i} si,在计算池化模块时将不考虑他们每个人;这是通过等式13中的指示函数 l i j l_{i j} lij建模的:

l i j [ s i ≠ s j ] = { 0  if  i ∈ s i , j ∈ s i 1  if  i ∈ s i , j ∉ s i l_{i j}\left[s_{i} \neq s_{j}\right]= \begin{cases}0 & \text { if } i \in s_{i}, j \in s_{i} \\ 1 & \text { if } i \in s_{i}, j \notin s_{i}\end{cases} lij[si=sj]={01 if isi,jsi if isi,j/si

行人 i 的隐藏状态将表示有关行人的信息,这些行人与 i 不连贯地移动。然后注意力机制会将它们作为隐藏状态的输入。

E. 注意力机制

在这里插入图片描述

当行人改变方向时,这条观察到的轨迹比其他部分传达了更多的信息。网络应该意识到这种微妙的变化,并专注于输入序列的特定部分。此外,作为一个附加元素,注意力机制可以帮助改进邻域交互建模。当隐藏状态到达注意力机制时,它们已经通过了组池模块并包含交互信息。

受到 L u o n g 等 人 32 Luong 等人^{32} Luong32提出的所谓全局注意力机制的启发,我们设计了我们的全局注意力机制,并在我们的生成器 G 的编码器-解码器框架中采用了它。全局注意力的概念是在推导上下文向量 C t C_{t} Ct时考虑编码器的所有隐藏状态,即在我们的案例,涉及所有过去的轨迹。上下文向量 C t C_{t} Ct从编码器传递到解码器,并携带路径预测所需的信息。注意力向量 a t a_{t} at计算为编码器输出 y e y_{e} ye和注意力权重 W a t t n W_{attn} Wattn的乘积,如等式 14所示:

a t = y e ∗ W a t t n a_{t}=y_{e} * W_{a t t n} at=yeWattn

其中 * 是矩阵乘积。在基于RNN的编码器-解码器框架中,编码器主要完成将输入编码为隐藏状态 h e t h^{t}_{e} het 的任务,而编码器输出 y e y_{e} ye通常不被使用。然而,编码器输出 y e y_{e} ye包含输入的原始分数,可用于标记或注意,如 [33]中所示。我们使用编码器输出来帮助解码器根据过去轨迹的历史特别关注隐藏状态。注意权重由解码器输入 e i e_{i} ei和当前隐藏状态 h d i t h^{t}_{d i} hdit推导出为:

W a t t n = softmax ⁡ ( align ⁡ ( e i , h d i t ) ) W_{a t t n}=\operatorname{softmax}\left(\operatorname{align}\left(e_{i}, h_{d i}^{t}\right)\right) Wattn=softmax(align(ei,hdit))

我们使用 softmax 层来获得对齐后的注意力权重。解码器将注意力向量和隐藏状态作为输入,然后预测未来的轨迹。图 4 说明了编码器和解码器之间的注意模块。隐藏状态、编码器输出和解码器输入都用于解码器注意。

4 实验

通过来自两个公开数据集(UCY、ETH)的真实世界视频来测试算法。数据集内包含大量复杂人群行为。

评价指标 ADE、FDE、DTW和碰撞率(Collision rate)

  • ADE

  • FDE

  • DTW(Dynamic Time Warping) 动态时间规整 (DTW) [15] 用于计算时间序列之间的距离,如最近在 [35] 中使用的那样。虽然 ADE 和 FDE 允许进行点对点轨迹比较,但 DTW 在全局级别评估两个轨迹的相似性。

  • 碰撞率 我们通过计算每帧的碰撞率来评估交互建模的有效性。两个行人的碰撞是我们最不想在拥挤的场景中观察到的事情。碰撞率越小,交互建模越好

在这里插入图片描述

实施细节

生成器和鉴别器使用Adam优化器训练,batchsize=64,epoch=200,lr=0.001。超参数 生成时间 k 设置为20,L2损失正则化权重 λ 是1。输入坐标的嵌入层维度是16。
生成器 编码器和解码器的隐藏状态的维度是32
鉴别器 编码器的隐含变量维度设置为48。
这是因为只有观察轨迹 S o b s N S^{N}_{obs} SobsN作为输入提供给生成器 G,而鉴别器 D 将整个序列 [ S o b s N S^{N}_{obs} SobsN, S p r e d N S^{N}_{pred} SpredN]作为输入,因此鉴别器应该具有更高的嵌入维度。

基准 根据现有工作,我们将我们的结果与一些现有基线进行比较:(i)线性回归器,通过最小化最小二乘误差(线性)来估计线性参数; (ii) 一个简单的 LSTM 网络 (LSTM); (iii) SLSTM,一种将 LSTM 网络与社会池化层 [6] 相结合的模型; (iv) S-GAN 和 S-GAN-P,基于社交 LSTM 的 GAN,分别使用社交池和隐藏池 [7]; (v) Sophie,一个基于 GAN 的框架,利用社会和物理上下文信息 [8],以及 (vi) RSBG,一个嵌入组交互建模的递归框架 [19]。

A. 量化分析

位移误差 表 1 显示了使用 ADE 和 FDE 对我们模型的评估,并与其他基准进行了比较。对于所有数据集,我们在模型的消融设置中呈现结果,其中 G 表示仅具有组池机制的模型,A 表示具有注意机制的模型,G + A 包括组感知池和注意机制。

在这里插入图片描述

可以看出,组池模块 G 和注意力机制 A 单独导致性能提高,组合解决方案 G + A 给出更好的结果。它表明这两个模块在轨迹预测的不同方面工作,即 G 的交互建模和 A 的运动历史开发。所提出的组合模型 G + A 在 ETH、HOTEL、ZARA2 序列中优于其他最先进的方法以及平均结果。由于 S-GAN [7] 和我们的模型都采用了多生成策略,为了比较公平,我们还评估了生成时间 k 设置为 1 的位移误差,如表 2 所示。平均而言,我们的模型在预测任务中优于其他模型。 [8] 在 UCY 和 ZARA1 数据集中表现得比我们的模型更好,因为它能够模拟场景中与动态障碍物的交互。

在这里插入图片描述

Mean DTW 先前的工作 [6]、[7]、[8] 使用 ADE/FDE 方法分析轨迹匹配。然而,ADE/FDE 是点对点比较,缺乏对轨迹相似性的全局评估。我们采用动态时间规整 (DTW) [15] 来计算预测轨迹 S p r e d N ( t : t + τ ) S^{N}_{pred}(t : t + τ) SpredN(t:t+τ) 和真实轨迹 S o b s N ( t : t + τ ) S^{N}_{obs}(t : t + τ) SobsN(t:t+τ)之间的距离。它可以正式定义为两个时间序列之间累积距离的最小化:

D T W ( S p r e d N ( t : t + τ ) , S g t N ( t : t + τ ) ) = = ∑ i = t + 1 t + τ ∑ j = t + 1 t + τ min ⁡ ( ∥ S p r e d N ( i ) − S g t N ( j ) ∥ ) \begin{aligned} &D T W\left(S_{p r e d}^{N}(t: t+\tau), S_{g t}^{N}(t: t+\tau)\right)= \\ &=\sum_{i=t+1}^{t+\tau} \sum_{j=t+1}^{t+\tau} \min \left(\left\|S_{p r e d}^{N}(i)-S_{g t}^{N}(j)\right\|\right) \end{aligned} DTW(SpredN(t:t+τ),SgtN(t:t+τ))==i=t+1t+τj=t+1t+τmin(SpredN(i)SgtN(j))

其中 ∣ ∣ ⋅ ∣ ∣ ||·|| 是欧几里得范数距离。如图 5 所示,DTW 方法在它们的相对距离最小的位置比较两条轨迹。 DTW 的好处是即使每个轨迹的长度不同或包含加速度,也可以评估两条轨迹的相似性。

表 3 显示了每个模型的预测轨迹和地面实况之间的平均 DTW。基于运动历史和交互建模,轨迹预测框架不仅应该能够给出精确的预测,而且应该能够给出与地面实况相比形状相似的轨迹。我们的解决方案始终优于其他模型,表明我们的模型生成的轨迹更类似于基本事实。

在这里插入图片描述

行人碰撞率。由于人们有避免碰撞的本能,碰撞率可以反映交互建模的有效性。该度量是在每一帧计算的,当两个行人之间的距离小于 0.1m 时变得相关,如表 4 所示。由于组感知池和注意机制,我们的模型能够在大多数情况下为行人提供更好的碰撞避免。 ETH 和 HOTEL 序列可以认为是特殊情况,由于场景稀疏且没有交互,因此基本上没有检测到交互。特别是对于序列 HOTEL,人们倾向于直接走到目的地,原因线性模型优于其他基准。UNIV 序列是 UCY 数据集的一部分,它涵盖了具有高人群密度的各种复杂人类行为。如果像 S-LSTM [6] 和 S-GAN [7] 那样仅应用社会池化,感兴趣的行人将倾向于将其他人推离他的邻居,这可能会产生碰撞。

在这里插入图片描述

总之,呈现的结果表明我们的模型能够生成社会可接受的轨迹,这在许多情况下比其他最先进的方法更现实。这在采用不同的指标时也得到了证实。

B. 定性结果

在本节中,我们将展示一些定性结果,将我们的解决方案与现有文献进行比较。我们已经看到群体中行人的运动一致性是一个重要的属性。通过仅汇集不相关的周围行人来保留此属性可以显着提高预测性能。由于轨迹预测中现有的 GAN 框架 [7] 使用不同的样本生成并选择具有最小 ADE 的样本,因此预测质量在某种程度上被生成时间所掩盖。分散度,换言之,代际收敛,只能部分地揭示这一方面。

相干运动 如上所述,为了保证可靠的预测,不仅需要考虑时空关系,还需要考虑行为的社会性质。根据人际空间研究[36],与未知的行人一起踱步相比,与社会相关的人倾向于在他们的个人空间中保持更近,并在拥挤的环境中一起行走。仅汇集不相关的行人将更多地关注宏观的组间交互而不是组内动态,这使模型能够提高轨迹预测性能。图 6 展示了两种情况,与 S-GAN 相比,我们的模型改进了轨迹预测。两组在 ETH 序列中以相反的方向行走(底行)。我们的模型保留了连贯的群体运动,从而预测了更好的未来状态。一组两个行人在同一个方向一起行走,如 UCY 序列(顶行)所示。他们一直呆在自己的个人空间中,在我们的模型中连贯地行走,而在 S-GAN 中可以观察到令人厌恶的行为。

在这里插入图片描述

预测收敛 如第III-C节所述,我们采用多种损失,然后我们一次生成k个样本,我们选择ADE最小的那个。分散度表示预测质量。因此,模型使轨迹预测尽可能接近地面实况是至关重要的。图 7 分别提供了 ETH 和 ZARA2 序列中一个行人的 20 条生成轨迹的两个示例。我们应用 AG-GAN 的 G 和 G + A 设置来验证收敛性。生成收敛改进,更接近基本事实。
在这里插入图片描述

总结与展望

在本文中,我们提出了一种新颖的基于 LSTM 的 Attentive Group-Aware GAN 框架,用于轨迹预测。连贯的组聚类和对隐藏状态的关注都被利用,产生了社会合理的轨迹预测。实验结果表明我们的模型优于大多数最先进的模型。在未来的工作中,我们希望改进模型,使其能够预测更长的时间范围,这是当前可用注释数据集所施加的限制。与分组信息类似,障碍物和其他环境约束也将被纳入模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值