文献阅读报告 - Context-Based Cyclist Path Prediction using RNN

原文引用

Pool, Ewoud & Kooij, Julian & Gavrila, Dariu. (2019). Context-based cyclist path prediction using Recurrent Neural Networks. 824-830. 10.1109/IVS.2019.8813889.

1616500-20190925200422494-700507076.png

概览

前段时间读了几篇有关轨迹预测的文章,这些文章大多在鸟瞰监控视角下,以提升准确性、多样性和合理性为目的,提出对各情景通用的轨迹预测模型。今天这篇文章则有所不同,是我目前看到少有的基于RNN的轨迹预测落地应用的文章,其针对T字形路口情景中,车前骑行者的轨迹(直行/借道转弯)预测,在考虑了常用的认知特点后,RNN序列模型表现出相较Dynamic Model较大的提升。

1616500-20190925200446042-1009604773.png

HighLights

  1. 基于常见认知的多种类输入:针对路口的骑行轨迹预测,模型加入了骑行者距离路口的距离、速度不变时汽车超越骑行者所需时间和骑行者的手臂是否举起三个特征作为轨迹以外的语义信息,符合人类在常见情况下的认知规律。
  2. 动态输入,定点预测,更符合模型实际应用情景:模型最终衡量的是\(p(x_{t+n}|y_{0:t})\),也就是Prediction Point(预测点\(t\))后的第\(n\)步预测结果。其中\([0:t]\)的定义比较特别,其长度是动态的(在实际情况中,我们可以理解成骑行者被检测到时就开始输入RNN模型),在模型训练和测试时,都是通过指定不同的预测点\(t\)来产生多组数据和情景。
  3. 通过实验证明模型对语义信息的捕捉能力和语义信息抽取的合理性:文章在后面实验中着重探究了模型在“紧急/非紧急”和“挥手/不挥手”的情景数据下表现能力。对于模型对语义信息的捕捉能力,并不是一味地高准确率就好,只有正常语境下的正确预测与不正常语境下的错误预测才反映出模型对语义与轨迹行为相关性的捕捉;而对于语义信息抽取的合理性,则是通过模型能够学习出语义信息与行为的相关性而间接反映的。
  4. 充分的测试与细致的定性分析
    • 对数据标准化和隐藏状态重置两种正则化方法必要性进行研究,得出对准确性提升的结论。
    • 路口转向时,不确定性分布的可视化。
    • 通过设定不同时刻的Prediction Point(开始预测的时间点),观察准确性变化,研究过拟合的情况。
    • 探讨训练数据中加入不正常行为后预测准确性增加的原因。
  5. 利用GRU序列模型,减少训练参数数量,匹配于有限数据量


Questions

  • “隐藏状态重置”的正则化方法理解:随机失活?全盘重置?
  • TTE定义的合理性:TTE=0被定义为骑行者跨过某个点的时刻,这个点被定义为数据集中25%的转弯者已经左转弯。如何定义左转弯?25%选择的合理性?
  • 合理情形和不合理情形分类的标准。


模型

简介

如下图所示,预测模型整体是一个RNN模型,输入RNN的数据由两部分组成,首要的是模型下方的轨迹数据\(x_0,x_1,x_2...\)(具体作为模型输入时还需再处理,详见下文),其次是三个语义环境信息组成的\(c_t\)向量:

  • Static Context:骑行人沿主干方向距离路口的距离。
  • Dynamic Context:汽车与骑行人保持同样速度,发生超越的时间。
  • Object Context:行人挥手行人。(通过CNN网络预训练得到,用\(0-1\)之间的置信度表示。

通过指定预测点\(t\)和预测长度\(n\),预测点后的轨迹将以二维高斯分布的形式进行预测:

  • When Training:损失函数的计算将评估\([x_{t},x_{t+n}]\)整个区间。
  • When Interface:评价指标将只关注\(x_{t+n}\)的预测情况。
1616500-20190925200459473-298288156.png

RNN模型

受限于训练数据的有限性,文章选择了GRU作为RNN模型的单位,虽然轨迹与语义情景的输入与输出由同一个RNN序列完成,但我们可以大致将其分为输入和预测两个阶段。

输入阶段

对于每一步的GRU Cell的输入\(y_t\),其是轨迹输入和语义情景输入经过处理和拼接后得到的,实际上\(y_t\)中的轨迹坐标部分,其输入实际为当前位置相对于上一时刻的偏移(offset):

\[y_t = [x_t-x_{t-1},c_t]^T\]

而经过GRU Cell得到的隐藏状态\(h_t\),会用解码器得到隐藏状态的解码值\(h_{t,dec}\),并与\(\tilde y_t\)做减法运算,得到的差经过编码器处理作为下一步GRU的输入。

\[u_t = W_{enc}(\tilde y_t - W_{dec}(h_t)) = W_{enc}(\begin{bmatrix} {x_t - x_{t-1} \\ c_t}\end{bmatrix} - \begin{bmatrix} W_{pos}(h_t) \\ W_{cues}(h_t)\end{bmatrix})\]

[注意]这篇文章中的RNN模型输入与常见模型有着很大的不同,其在输入阶段就已经有迭代化(上一步输出参与当前步的输入运算)的现象。而将预测与输入做差结果作为GRU的输入其实就反映RNN模型的输入是真实与预测之间的差异

1616500-20190925200518470-688522028.png

预测阶段

在输入阶段,每一步GRU的输入均是“Offset的预测值与Offset的真实值差异”的编码值,而在预测阶段真实值肯定是不存在的,因此这时我们每次传递给编码器的值就是\(0\)(言下之意:神经网络你太棒啦!分毫不差!

\[u_t = W_{enc}(0).\]

由于每步输出的都是相对上一步的偏移值Offset,因此\(t+n\)时刻的坐标计算如下:

\[\hat x_{t+n} = x_t + \sum_{i=1}^nW_{pos}(h_{t+i})\]

1616500-20190925200529046-1709073861.png

? 除此之外,利用\(h_t\)还可以在假定高斯分布的情况下预测Offset的分布, 这与Social LSTM有相同也有不同:

  • 相同点在于同样预测了五个二维高斯分布的参数,并用该分布上的log likelihood作为损失函数训练数据;
  • 不同点在于预测位置时,本模型直接用了\((\mu_x, \mu_y)\),而不像Social LSTM在已知分布上随机采样求均值。

\[[l^0,l^1,l^2] = W_{cov}(h_{t+n})\]

\[\sigma_1 = exp(l^0), \sigma_2 = exp(l^1), \rho = tanh(l^2)\]

\[\Sigma_{t+n} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix}\]


实验

实验概述

  1. 数据库
    • TTE:对于25%的转弯轨迹发生左转弯的第一帧标记为TTE=0.
    • 情景:骑行者在路口左转弯。
    • 硬件:双目视觉摄像头,16帧率。
    • 数量:51tracks。
  2. 训练与测试
    1. 训练
      • 输入与输出长度:[0:T] & 16. (未找到输入长度的明确说明,目前认为是将整个轨迹从开始全部输入,而后通过指定Prediction Point - 预测点的方式,向后预测16步)。
      • Prediction Point选取:\(TTE \in [-15,15]\)
      • 正则化手段:数据归一化;5%概率的隐藏状态重置。
      • Loss 计算:neg log-likelihood for [\(p_t, p_{t+15}\)]
    2. 测试
      • 输入与输出长度:同训练
      • Prediction Point选取:同训练
      • Evaluation 计算:log-likelihood for [\(p_{t+15}\)]


重要的实验

模型对语义信息的捕捉力和语义信息抽取的合理性

利用只在合理情景下训练的模型进行对比实验分析准确率(数值越高越好),我们可以看出对于Context Cues分析越多,在合情情境下准确率越高,在不合情情景下准确率越低。这证明了:

  • 模型对Context Cues的良好捕捉能力:其找到了轨迹与语境信息的相关性。
  • Context Cues选择的合理性:若选择不合理,则特征与轨迹不存在相关性,模型自然挖掘效果不佳。

*不合理情景定义:对于(转弯/直行) x (举手/未举手) x (紧急/不紧急) = 6中情况中,(紧急,举手,直行)、(不紧急、举手、直行)、(紧急、不举手、转弯)被判定为不合理情况

1616500-20190925200552625-1505616432.png
1616500-20190925200558068-812881133.png


预测不确定性的可视化

通过输出的二维高斯分布特征,绘制了预测不确定性:

  • 转弯时横向不确定度显著增大。
  • 丰富的Context Cues - 语境信息能减小不确定度。
1616500-20190925200604873-1137816181.png


过拟合研究

?下图中的横向时间轴是Prediction Point(也就是说,likelihood的计算是Prediction Point+16的时刻)。笔者在此认为文章提供了一种很好的过拟合观察方法,对于蓝线 - 最优模型,其在[-20,-15]阶段出现了显著的准确率下降和高度的差异性,而后又逐渐恢复较好水平,由此可以得出“在离TTE很远,任何行为都没有发生的时刻,模型过拟合地做出过早判断”

  • 过拟合判断标准一:一定造成了准确率下降。
  • 过拟合判断标准二:在理论上不应该预测的地方进行了预测。
1616500-20190925200610290-542209445.png

转载于:https://www.cnblogs.com/sinoyou/p/11587105.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值