卡内基梅隆大学梁俊卫:视频中行人的多种未来轨迹预测

卡内基梅隆大学的梁俊卫在第17期“AI未来说·青年学术论坛”上做了关于《视频中行人的多种未来轨迹预测》的报告。他提出首个量化评估多未来轨迹预测的数据集,并介绍了一个新的有效模型,该模型在VIRAT/ActEV等数据集上取得了最优结果。报告还涵盖了如何通过模拟重建和人类标注创建数据集,以及如何使用多解码器框架预测行人轨迹。
摘要由CSDN通过智能技术生成

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年7月26日,第17期“AI未来说·青年学术论坛”百度奖学金特别专场论坛以“线上平台直播+微信社群图文直播”形式举行。卡内基梅隆大学梁俊卫带来报告《视频中行人的多种未来轨迹预测》。

卡内基梅隆大学梁俊卫做“视频中行人的多种未来轨迹预测”主题报告分享

梁俊卫,卡内基梅隆大学计算机学院三年级博士生,师从Prof. Alexander Hauptmann。他在2017年拿到卡内基梅隆大学的人工智能硕士,并在2018年拿到雅虎博士生奖学金,2019年拿到百度奖学金,2020年获得WAIC明日之星云帆奖。他研究的方向主要是基于视频的计算机视觉和机器学习。他与李飞飞教授合著的CVPR'19行人未来预测文章获得量子位和机器之心等媒体的关注,他的视频事件重建系统以及枪手定位系统获得包括CBS在内的广大美国媒体报道。

视频中行人的多种未来轨迹预测

首先,梁俊卫介绍了智能驾驶的安全性方面的工作。这篇论文发表在CVPR2020上,是跟蒋路博士,Professor Kevin murphy,Ting Yu博士,还有Professor Alex Hauptmann合作的。梁俊卫通过一个具体的例子来介绍了他们所做的工作。

在今年CVPR2020上的工作,梁俊卫主要解决多未来轨迹预测问题。上图中左下角行人往停车场走过来,它是有可能走向其中任意一辆,但是如果用这个视频作为一个评测标准的话,就会忽略掉行人会往车辆行走的这些可能的预测。所以梁俊卫就提出了一个新的可创造多未来轨迹的数据集。利用 simulation也就是3D模拟器,可以把真实的视频重建进去,通过让人类标志者控制这些agent,我们可以得到所有可能的未来路径的一个数据集,我们叫做the forkingpaths dataset。

接下来,梁俊卫介绍了他们这篇论文的三点主要贡献。一是提出了第一个可以去量化考核、多未来轨迹预测的数据集。二是提出了一个new effective model。三是在一个叫做VIRAT/ActEV的真实视频、数据集以及我们提出的多未来轨迹预测数据集上拿到了STOA。

具体而言,在第一点上,也就是如何去创建的这样一个多轨迹未来预测的数据集。这个数据集叫做 The Forking Paths Dataset,它分成三步:第一步是场景重建(Scenariore-creation)。scenario是场景,是15秒钟左右的一个片段。这一步包括了静态场景的重建,比如不动的建筑、人行道类似的事物等,以及动态事物的重建。其中动态事物重建包括行人跟车辆,这个是可以自动重建出来的;第二步是场景编辑(Scenario editing),因为3D模拟器它总会有一些误差在里面,所以需要去人工干预重建的效果,移除一些不够真实的事物。同时还要决定哪一些行人是有可能走出不同路径的;第三步是人类标注(Human annotation),也就是让人类去标注多未来可能的轨迹。

在场景重建(Scenario re-creation)上,下图展示了一个视频,视频中展示了梁俊卫对场景的正确模拟。同时。梁俊卫在这个数据集构造了一个非常容易编辑的图形界面。可以看到,在图中可以用鼠标去构造一个新的轨迹,也可以在上面加一辆汽车,然后可以查看重建的效果。在我们成功的重建这些场景之后,我们就可以让人类标注者去控制这些agent进行实际操作。

如下图所示,标注者一开始会从鸟瞰视角确定自己的目的地,人类标注者的任务就是要在规定时间,比如说15秒内控制 agent,在不触碰其他周围的行人的情况下,在限时15秒内到达目的地。然后梁俊卫可视化的展示了收集到的数据集。不同的人类标注者会走出不同的路径,因为这些都是人类标注者实际操作出来的,也就是在实际情况下这些路径是可能存在的,所以这样的一个数据集,可以用来评测模型,看模型是否能正确地预测出所有可能的行人未来路径。

梁俊卫团队总共重建了大概7个场景,这些场景都是来自于两个在行人轨迹预测领域使用频率的非常高的数据集。

然后,梁俊卫介绍了他们团队提出的概率模型。团队做了一个multidecoder的框架,去预测粗粒度和细粒度的未来位置,其输入特征就是语义分割特征。为了构建该模型,需要完成下面几步工作:

第一步是Encode。也就是把整个场景分割成了相同大小的方格,然后Encoder会把观察阶段中从时间1到时间T的行人的位置进行编码,并将语义分割的特征,以及周围的场景特征进行编码,输入到ConvolutionalLSTM中。这个模型它会首先预测行人在下一个时间点会出现在哪个大的方格内。当确定了在哪个大的方格之后,再预测它在该大方格内,它会出现在在哪个具体位置,这个具体位置用从方格的中心点到绝对位置的差进行表示。

第二步是decoder。这里的decoder就有粗细两个粒度,decoder的作用就是要预测从T+1时间到 Tpred时间点的行人所在的未来位置,在每个时间点会使用一个图卷积网络去refine 它的 hidden state。这样做的意义是在于能把行人周围所在的位置、它周围有没有车辆,有没有其他行人这些信息,考虑进这个Multiverse模型,做未来预测的时候,就可以使用一个叫beam search的方法去得到多种未来可能性的路径预测。

梁俊卫向我们具体展示了两个实验的评测。第一个实验是单轨迹和多轨迹预测。单轨迹预测的是从T+1时间到 Tpred时间点的所在位置,评测标准就是你预测的点的坐标与正确答案的点的坐标之间的绝对距离,然后因为有多个时间点那么就可以计算模型的平均错误,或者是最后一个预测点的错误。多轨迹预测里面的评测标准,唯一不同点就是模型可以输出多个未来路径。另外一个评测是Negative Log-Likelihood(NLL)。如果输出的是一个概率分布,那么就可以计算正确答案跟概率分布的匹配程度。

下图展示了单轨迹预测的实验数据结果。它是坐在VIRAT/ActEV dataset,实验基于VIRAT/ActEV这一个真实视频的数据集。从数据看,梁俊卫的模型就拿到了最好的结果。图中的数字表示绝对值错误,所以数值越小就越好。并且图中展示了不仅在真实数据集中模型能够达到最好结果,在虚拟数据集中也能达到最好结果。

下面两张图则展示出了第二个实验,即多未来路径预测的实验结果。从图中可以看到梁俊卫的模型也是比原有的方法好很多。


下图是对实验结果的一个可视化的对比。黄色是观察阶段,绿色是正确答案。橘色的热图就是模型的预测,左边是Social-GAN的预测,右边是梁俊卫的模型。

最后,梁俊卫展示了相关的工作以及如何获取更多的相关信息,并进行了集中答疑。

AI未来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”作用

2. 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值