LIVE 预告 | CVPR 2021 预讲 · 悉尼科技大学ReLER实验室专场

智源社区

于 2021-03-30 20:54:24 发布

阅读量1.2k

点赞数

文章标签：大数据编程语言计算机视觉机器学习人工智能

CVPR 2021 大会将于6月19日至 25日线上举行。为促进同行之间的交流与合作，智源社区近期举办了系列CVPR 2021预讲报告，其中实验室系列将汇聚国内顶尖高校和企业实验室的研究人员为大家分享其最新研究成果。

其中悉尼科技大学ReLER实验室共有13篇论文被本届 CVPR 大会接收，其中包括口头报告论文 3 篇。部分录取论文和百度，亚马逊等公司合作，在以下领域实现进展：语义分割，迁移学习，多模态识别，点云处理，网络结构搜索，姿势识别等。智源研究院邀请到其中7位中稿研究者分享他们在CVPR上的工作（包括两篇oral paper）。

ReLER实验室隶属于悉尼科技大学-澳大利亚人工智能研究所（The Australian Artificial Intelligence Institute，简称AAII），澳大利亚最大的人工智能研究中心之一。ReLER起名源于Recognition, LEarning, Reasoning这三个英文单词，也代表了ReLER实验室的研究是致力于让机器能够 1）准确识别环境，2）自适应地理解人类的行为，3）通过推理从而自动分析这些行为。为此，实验室的研究方向包括：机器学习算法，计算机视觉，自然语言处理等。

活动主题

CVPR 预讲 · 悉尼大学ReLER专场

活动时间

2021年4月1日（周四）晚6点

形式

线上直播

（Zoom + 智源社区 Hub + 智源社区B站）

观看方式

智源社区Hub直播

智源社区报名及直播

（社区报名，可收到短信定时提醒）

Zoom 观看

https://zoom.com.cn/j/6011507040（无密码）

B站直播

https://live.bilibili.com/21484823

欢迎加入智源CVPR兴趣组

（加入CVPR兴趣组，共同讨论最新进展）

活动议程：

报告内容详细介绍

讲者 1：朱霖潮，悉尼科技大学讲师

朱霖潮，分别于浙江大学和悉尼科技大学获得本科与博士学位，2015年和2016年于卡内基梅隆大学访学。曾获得美国国家标准总局TRECVID比赛冠军，EPIC-Kitchens，THUMOS动作识别比赛冠军。2021年获Google Research Scholar奖（在机器感知领域仅有七个获奖者）。长期关注视频行为理解，无监督视频特征学习。

讲者 2：范鹤鹤

论文：Point 4D Transformer Networks for Spatio-Temporal Modeling in Point Cloud Videos [Oral]

作者：Hehe Fan, Yi Yang and Mohan Kankanhalli

报告摘要：从2020年起，激光雷达(LiDAR)开始从大功率、价格昂贵走向低功耗、廉价和便携。例如微软推出了Azure Kinect （399美元），英特尔旗下的RealSense推出了L515（349美元），苹果在2020款的iPad Pro和iPhone Pro也搭载了LiDAR，使得LiDAR从无人车迈向日常应用。随着LiDAR的普及，三维点云（3D Point Cloud）超出了无人车驾驶领域、开始在整个计算机视觉中得到广泛应用。点云本质上是无序、不规则的三维坐标集合{(x,y,z)}。比如{(1,1,1), (2,2,2), (3,3,3)}和{(2,2,2), (3,3,3), (1,1,1)}代表的是同一点云。如果可同时获得点的颜色等特征，可生成类似key-value的数据{(x,y,z: feature)}。不同于基于有序、规则像素网格的传统图像，这种无序、不规则的数据对深度神经网络提出了极大挑战。更为严重的是，在学习动态点云时，单帧点云的无序使得点在整个视频里出现的顺序无法做到一致。虽然可采用point tracking来获取点的轨迹，但tracking本身就极具挑战，很难获得准确的轨迹。因此，在这篇论文里，我们采用了Transformer，这一non-local技术来避免显式地track points（另一技术是建立spatio-temporal hierarchy，发表在ICLR2021的我们一篇名叫PSTNet [1] 的论文里）。我们的方法在3D action recognition和4D semantic segmentation上获得了不错的性能。

[1] PSTNet: Point Spatio-Temporal Convolution on Point Cloud Sequences

讲者 3：许有疆

论文：Faster Meta Update Strategy for Noise-Robust Deep Learning [Oral]

作者：Youjiang Xu, Linchao Zhu, Lu Jiang, Yi Yang

报告摘要：基于meta-learning的方法在有噪声标注的图像分类中取得了显著的效果。这类方法往往需要大量的计算资源，而计算瓶颈在于meta-gradient的计算上。本文提出了一种高效的meta-learning更新方式：Faster Meta Update Strategy (FaMUS)，加快了meta-learning的训练速度 (减少2/3的训练时间)，并提升了模型的性能。首先，我们发现meta-gradient的计算可以转换成一个逐层计算并累计的形式; 并且，meta-learning的更新只需少量层数在meta-gradient就可以完成。基于此，我们设计了一个layer-wise gradient sampler 加在网络的每一层上。根据sampler的输出，模型可以在训练过程中自适应地判断是否计算并收集该层网络的梯度。越少层的meta-gradient需要计算，网络更新时所需的计算资源越少，从而提升模型的计算效率。并且，我们发现FaMUS使得meta-learning更加稳定，从而提升了模型的性能。最后，我们在有噪声的分类问题以及长尾分类问题都验证了我们方法的有效性。

讲者 4：苗嘉旭

论文：VSPW: A Large-scale Dataset for Video Scene Parsing in the Wild

作者：Jiaxu Miao, Yunchao Wei, Yu Wu, Chen Liang, Guangrui Li, Yi Yang

报告摘要：语义分割是计算机视觉领域的一个基本任务。近年来，图像语义分割方法已经有了长足的发展，而对视频语义分割的探索比较有限，一个原因是缺少足够规模的视频语义分割数据集。本文提出了一个大规模视频语义分割数据集，VSPW。VSPW 数据集有着以下特点：（1）大规模、多场景标注。本数据集共标注3536个视频，251632帧语义分割图片，涵盖了124个语义类别，标注数量远超之前的语义分割数据集（Cityscapes, CamVid）。与之前数据集仅关注街道场景不同，本数据集覆盖超过200种视频场景，极大丰富了数据集的多样性。（2）密集标注。之前数据集对视频数据标注很稀疏，比如Cityscapes，在30帧的视频片段中仅标注其中一帧。VSPW 数据集按照15f/s的帧率对视频片段标注，提供了更密集的标注数据。（3）高清视频标注。本数据集中，超过96%的视频数据分辨率在720P至4K之间。与图像语义分割相比，视频语义分割带来了新的挑战，比如，如何处理动态模糊的帧、如何高效地利用时序信息预测像素语义、如何保证预测结果时序上的稳定等等。

本文提供了一个基础的视频语义分割算法，利用时序的上下文信息来提升分割精度。同时，本文还提出了针对视频分割时序稳定性的新的度量标准。期待VSPW 能促进针对视频语义分割领域的新算法不断涌现，解决上文提出的视频语义分割带来的新挑战。

讲者 5：李光睿

论文：Domain Consensus Clustering for Universal Domain Adaptation

作者：Guangrui Li, Guoliang Kang, Yi Zhu, Yunchao Wei, Yi Yang

报告摘要：域适应问题是要将在一个有标注的域学习到的特征和表示迁移到另一个无标注的目标与中。在本文中，我们主要关注域适应问题在两个域的标签空间不对齐的情况下的特征迁移，即两个域中都有从未在另一个域中出现的 ’未知类‘，这被称作通用域适应（Universal Domain Adaptation）。以往的文章中通常将’未知类‘当做一个类来处理，而忽略了其内在的分布。尤其是当’未知类‘较多的时候，简单得将其当做一个类会使得其在特征空间中不够紧凑，从而导致其与共有类混淆。为了解决这个问题，本文提出了域共识聚类（domain consensus clustering），来同时将共有类和未知类进行聚类，以更好的发掘隐空间（latent space）中的信息。具体来讲，我们首先在两个层面来计算域共识，语义层面，和样本层面。在语义层面，我们通过源域和目标域中聚类的最近邻一致性来识别可能的共有类的聚类(cycle-consistency)。在样本层面，我们设计了域共识分数（domain consensus score）来评估通过最近邻一致性匹配到的聚类的匹配程度。基于以上的设计，我们可以根据两个域的聚类间的匹配程度动态的调整目标域中聚类的数目，从而在完全没有先验信息和标注的情况下在目标域进行聚类。实验证明我们的方法具有很好地优越性和泛化性，在Universal/Open-set/Partial Domain Adaptation 三个场景下的多个数据集上达到了最优性能。

讲者 6：汪晓晗

论文：T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

作者：Xiaohan Wang, Linchao Zhu, Yi Yang

报告摘要：随着各种互联网视频尤其是短视频的火热，文本视频检索在近段时间获得了学术界和工业界的广泛关注。特别是在引入多模态视频信息后，如何精细化地配准局部视频特征和自然语言特征成为一大难点。在近期的顶会上有一些优秀的工作通过解析query文本并利用cross- attention的思路做Matching来解决这一问题。但在实际应用过程中，Matching操作会带来巨大的计算开销。我们提出自动化学习文本和视频信息共享的语义中心，并对聚类后的局部特征做对应匹配，避免了复杂的计算，同时赋予了模型精细化理解语言和视频局部信息的能力。此外，我们的模型可以直接将多模态的视频信息（声音、动作、场景、speech、OCR、人脸等）映射到同一空间，利用同一组语义中心来做聚类融合，也在一定程度上解决了多模态信息难以综合利用的问题。我们的模型在三个标准的Text-Video Retrieval Dataset上均取得了SoTA。对比Google在ECCV 2020上的发表的最新工作MMT，我们的模型能在将运算时间降低一半的情况下，仅利用小规模标准数据集，在两个benchmark上超过MMT在亿级视频文本数据（Howto100M）上pretrain模型的检索结果。我们会在CVPR后在arxiv上挂出论文并开源代码，欢迎大家关注。

讲者 7 ：武宇

论文：Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing

作者：Yu Wu, Yi Yang

报告摘要：现有的音视频研究常常假设声音和视频信号中的事件是天然同步的，然而在日常视频中，同一时间可能音视频会存在不同的事件内容。比如一个视频画面播放的是足球赛，而声音听到的是解说员的话音。本文旨在精细化的研究分析视频中的事件，从视频和音频中分析出事件类别和其时间定位。我们针对通用视频，设计一套框架来从弱标签中学习这种精细化解析能力。该弱标签只是视频的标签（比如篮球赛、解说），并没有针对音视频轨道有区分标注，也没用时间位置标注。我们使用MIL(Multiple-instance Learning)来训练模型。然而，因为缺少时间标签，这种总体训练会损害网络的预测能力，可能在不同的时间上都会预测同样的事件。因此我们提出引入跨模态对比学习，来引导注意力网络关注到当前时刻的底层信息，避免被全局上下文信息主导。此外，我们希望能精准地分析出到底是视频还是音频中包含这个弱标签信息。因此，我们设计了一套通过交换音视频轨道来获取与模态相关的标签的算法，来去除掉模态无关的监督信号。具体来说，我们将一个视频与一个无关视频（标签不重合的视频）进行音视频轨道互换。我们对互换后的新视频进行标签预测。如果他对某事件类别的预测还是非常高的置信度，那么我们认为这个仅存的模态轨道里确实可能包含这个事件。否则，我们认为这个事件只在另一个模态中出现。通过这样的操作，我们可以为每个模态获取不同的标签。我们用这些改过的标签重新训练网络，避免了网络被模糊的全局标签误导，从而获得了更高的视频解析性能。

讲者 8：杨宗鑫

论文：DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency

作者：Zongxin Yang, Xin Yu, Yi Yang

报告摘要：相比较于标注目标物体的二维外接框，人工标注三维姿态非常困难，特别是当物体的深度信息缺失的时候。为了减轻人工标注的压力，我们提出了一个两阶段的物体姿态估计框架来从物体的二维外接框中学习三维空间中的六自由度物体姿态。在第一阶段中，网络通过弱监督学习的方式从二维外接框中提取像素级别的分割掩模。在第二阶段中，我们设计了两种自监督一致性来训练网络预测物体姿态。这两种一致性分别为：1、双尺度预测一致性；2、分割-渲染的掩模一致性。为验证方法的有效性和泛化能力，我们在多个常用的基准数据集上进行了大量的实验。在只使用合成数据以及外接框标注的条件下，我们大幅超越了许多目前的最佳方法，甚至性能上达到了许多全监督方法的水平。

CVPR 研究组成员招募

智源社区作为一个以构建高度合作为目的的人工智能社区，为了推动人工智能领域，特别是计算机视觉领域研究者和从业者之间的交流和合作，我们将组织「CVPR 兴趣研究组」（以下简称“CVPR研究组”），以在线合作的方式来推动CVPR的交流工作。

CVPR研究组将以在读硕博为主要群体，围绕「CVPR」会议做（但不限于）以下工作，包括撰写论文解读文章、邀请并主持CVPR论文报告、专题讨论及领域进展分析等，以期促进大家的研究工作，并激发研究灵感，做出创新研究。

本研究组采用申请入组机制：