明天9:00 | ECCV 2022 全球博士TalK——计算机视觉领域顶会

AITIME论道

于 2022-11-30 12:30:03 发布

阅读量1.1k

点赞数 1

文章标签：计算机视觉人工智能目标检测深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247509087&idx=1&sn=7010a2716545d8a0879ffb65ac406e53&chksm=e93296f9de451fef26e9b4ab36d2fc29f0e5b36a6f5c1ebafab29daa1088313515c7a3c75f40&scene=126&&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

哔哩哔哩直播通道

扫码关注AI TIME哔哩哔哩官方账号预约直播

12月1日 9:30—11:30

讲者简介

杨靖康：

新加坡南洋理工大学二年级博士生，导师为刘子纬。研究课题为开放世界的视觉推理。博士期间研究内容包括out-of-distribution detection, prompt learning, visual reasoning等。博士期间贡献了包括OpenOOD, OpenPSG等开源代码库。于CVPR，ICCV，ECCV，NeurIPS，IJCV等会议与期刊发表论文若干，担任AAAI, CVPR, ICML, ICCV, ECCV, NeurIPS等会议的审稿人。

报告题目

全场景图生成

报告简介

当下大多数的计算机视觉任务却仍然只关注于物体感知。比如说，图像分类任务只需要模型识别图像中的物体物体类别。虽然目标检测，图像分割等任务进一步要求找到物体的位置，然而，此类任务仍然不足以说明模型获得了对场景全面深入的理解。事实上，在智慧城市、自动驾驶、智能制造等许多现实世界的AI场景中，除了对场景中的目标进行定位外，我们通常还期待模型对图像中各个主体之间的关系进行推理和预测。例如，在自动驾驶应用中，自动车需要分析路边的行人是在推车还是在骑自行车。根据不同的情况，相应的后续决策可能都会有所不同。因此，我们提出全场景图生成（PSG）任务，携同一个精细标注的大规模PSG数据集。PSG任务克服了从而解决场景图生成任务的固有缺点，从而推动该领域朝着全面和深入的场景理解迈进。为了支撑我们提出的PSG任务，我们搭建了一个开源代码平台OpenPSG，其中实现了四个双阶段的方法和两个单阶段的方法，方便大家开发、使用、分析。PSG任务也支撑了粤港澳大湾区国际算法算例大赛和ECCV’22 SenseHuman Workshop比赛，赛道奖金池100万人民币，诞生了若干新颖的解法以推动领域发展。

讲者简介

周凯文：

周凯文是加州大学圣克鲁兹分校的二年级博士生，导师是王鑫（Xin Eric Wang）。博士期间研究内容主要集中于具身智能体和多模态的问题，并于ECCV 2022发表论文。博士期间还与团队参与亚马逊举办的Simbot虚拟机器人公开挑战并取得leaderboard阶段的第一名。个人主页：https://kevinz-01.github.io

报告题目

保护隐私的联邦视觉语言导航

报告简介

对于可以感知环境，与人类交流，并在现实世界中交互的智能实体机器人而言，数据隐私是一个核心问题。在帮助人类完成任务的同时，智能机器人可能会观察和处理用户的敏感信息，比如房屋的环境，用户的活动等。因此，在这项工作中，我们为机器人根据语言指令在环境中移动的视觉和语言导航任务提出了隐私学习方案。我们提出了一种分布式训练策略，将每个环境的数据只使用在本地的模型训练中，并提出了一种联合预探索的方法来对部分模型进行聚合，来提高模型在未知环境中的适应性和泛化性。在我们的框架下，分布式训练在保护用户隐私的同时，在可见环境的训练中能与集中式训练取得相当的结果，并在未知环境的预探索中显著优于集中式预探索训练。

讲者简介

梅康夫：

美国约翰霍普金斯大学二年级博士生，研究兴趣为计算摄影和生成模型。曾于快手，阿里巴巴达摩院，Adobe Research 等机构实习。研究工作发表在ECCV，AAAI，ACCV, TCSVT等期刊会议。担任 CVPR, ECCV, AAAI, IJCV, TIP, TMM 等会议及期刊审稿人。个人主页：https://kfmei.page。

报告题目

基于图像语义分布特征的图像修复网络

报告简介

低质量图像的修复后的结果能否更好地被识别和分割等任务理解，一直以来都是图像处理社区悬而未决的问题。尽管社区普遍认为高质量的图像才能被更好的理解，但是目前以PSNR，SSIM，LPIPS等指标为导向的工作很难再次取得卓越的进步。本工作受到图像语义和距离相关性的研究启发，提出了一种基于优化图像语义分布相似度的图像去噪网络。研究表明我们的方法不仅能提高去噪性能，而且我们的结果能更好地被预训练的图像语义分割网络理解，从而可以获得更准确的分割结果。此外，我们还在人脸图像清晰化和识别，图像去雾中获得了性能提升。

讲者简介

肖俊斌：

新加坡国立大学博士生（Final Year），导师为蔡达成教授，研究兴趣为跨模态视频内容理解。博士研究课题为基于视觉关系的视频问答技术研究。博士期间参与或主导构建领域内首个大规模视频关系数据集VidOR以及视频动作因果与时序分析的问答数据集NExT-QA。相关工作主要发表于CVPR, ECCV, AAAI, ACM MM, EMNLP等会议, 并受到来自Google, DeepMind, Microsoft, Oxford VGG, Stanford, CMU, MIT, UC Berkeley等知名机构研究者的关注与引用。其合作论文获选CVPR’22 Best Paper Finallist。担任CVPR’23, AAAI’23, ECCV’22, MM’19&20, ToMM等会议及期刊审稿人。获得2022年度NUS SoC院长奖学金。

报告题目

基于视觉图转换的视频问答模型

报告简介

基于跨模态预训练的Transformer风格的网络模型在回答一些关于粗粒度的视觉识别及场景描述的问题上取得了巨大成功。然而，这些模型一方面需要百万级别数据进行预训练，另一方面，其在回答细粒度的且需要视觉关系推理的问题时，表现不佳。特别是在回答那些强调视觉动作或事件之间的因果与时序关系的问题时，这些模型显得相形见绌。为了降低Transformer模型对数据的需求，并提升其在回答细粒度关系推理问题时的性能，我们提出视频图Transformer模型 VGT（Video Graph Transformer）。VGT 首先将视频建模成局部到整体的层次图表示，然后在图上显示地建模视觉实例、实例之间的关系及其时序动态性，由此而捕捉视觉目标在动态环境下的视觉关系变化。除此之外，VGT设计分离的视觉 Transformer 和文本Transformer，并通过跨模态对比学习（Contrastive Learning）的方式来优化模型参数。实验表明，VGT在没有使用大规模数据进行预训练的情况下，在回答有关动作或事件因果与时序关系的问题上较baseline方法有明显的提升, 并在一般的基于识别的问题上也表现不俗。我们进一步验证了使用相对少量数据进行预训练，VGT的性能可以得到进一步提升。我们希望VGT的成功能够对更加细粒度的以及更充分利用数据资源的跨模态视频内容理解有所启发。

讲者简介

李万华：

哈佛大学博士后，2022年6月于清华大学获得博士学位，研究兴趣为人脸分析与三维感知生成。已在CVPR/ICCV/ECCV/NeurIPS/TIP等国际会议和期刊上发表论文十余篇。担任CVPR, ICCV, ECCV, AAAI, IJCAI, TPAMI, TIP, TNNLS, TCSVT, PR等国际会议和期刊的审稿人。个人主页：https://li-wanhua.github.io/

报告题目

基于语言建模框架的多属性学习方法

报告简介

我们通常可以使用多个属性来描述一个物体，而这些属性之间往往是高度相关的。建模多个属性之间的关联关系对于多属性识别任务提出了巨大的挑战。本文提出了一个简单而且通用的框架来充分挖掘多属性之间复杂的相关关系，我们命名该方法为Label2Label。Label2Label首次从语言建模的角度出发看待多属性分类问题。具体地，我们将每一个属性标签看做一个单词。由于每个样本都标注有多个属性，因此每个样本的标签就构成了一个无序但是有意义的句子，这些单词就描述了对应样本的语义信息。受到自然语言处理领域中大规模预训练模型的成功的启发，本文的Label2Label引入了图片条件的掩码语言模型，其对标签句子随机地掩码掉部分单词，随后致力于基于掩码后的句子和图片特征来恢复这些单词。我们的想法是如果神经网络可以基于上下文信息和剩下的标签预测出掩码掉的标签，那么属性之间的关联关系就可以得到较好的建模。Label2Label概念简单且性能强大。无需针对任务特殊设计的先验知识和网络设架构，我们的方法可以在三种不同的多属性分类任务上取得最优的性能。代码已公开：https://github.com/Li-Wanhua/Label2Label。

讲者简介

郭川：

阿尔伯塔大学四年级博士生，导师为程立教授，研究兴趣为多模态三维人体动作与视频生成，包括文本到人体动作生成，基于动作类别和图片的三维动画生成等。博士期间以一作身份发表论文于CVPR，ECCV，IJCV，MM等会议与期刊，开源了包括HumanAct12, HumanML3D等多模态人体动作数据集。担任AAAI'23, CVPR'23, Eurographics'22, TMM, EMNLP'21等会议与期刊的审稿人。个人主页：https://ericguo5513.github.io/

报告题目

文本与3D人体动作的互模态映射学习

报告简介

文本与3D人体动作之间的互相映射可以理解成两个相关任务：基于文本的3D人体动作生成与理解。由于3D人体动作和文本属于不同模态，已有的工作往往关注在单个映射方向，并且使用冗余的基于动作帧(pose frame)表示，因此生成的动作或者文本不够真实、流畅。我们利用VQ-VAE提出一种新的离散的动作表示，动作码 (motion token)。相较于动作帧，动作码更加紧凑 (更短)，且具有空间-时间上下文信息。此外，动作码提供了一种类似与文本词的离散动作表达，因此我们可以借助翻译模型将文本翻译成动作码，或者进行反方向映射。我们观察到文本到动作码的映射往往更难学习，所以我们提出反向对齐。从生成的分布中采样的动作码序列通过预训练的翻译模型映射到文本，然后被约束与原始输入的文本一致。我们提出的方法可以为3D人体动作生成准确、流畅的文本描述，以及基于文本生成真实、多样化的3D动作。项目地址：https://ericguo5513.github.io/TM2T/

12月1日 15:00—16:30

讲者简介

赖昕：

目前就读于香港中文大学计算机科学与工程系的三年级博士生，师从贾佳亚教授。主要研究方向是三维点云感知，域适应，半监督学习。在CVPR，ECCV，ICCV，TPAMI中发表过多篇论文。

报告题目

针对域适应图像语义分割任务的解藕网络

报告简介

在域适应图像语义分割任务中，我们观察到目前基于对抗学习的方法的两个问题：1）任务互相干扰；2）源域过拟合。为此，我们设计了解藕网络（DecoupleNet），在模型训练过程中减少特征对齐任务对图像分割任务的影响，从而使其集中在分割任务上，从而提升图像分割性能。此外，我们还提出自识别（Self-Discrimination）方法，通过在训练中引入一个额外的辅助分类器得到一个新的简单且有效的监督信号。最终，我们提出一种新的自训练（Self-Training）方法，在线提升伪标签质量，大幅提升模型性能。

讲者简介

许牧天：

目前是香港中文大学（深圳）GAP-LAB的二年级博士生，导师韩晓光。主要研究方向为三维物体和场景的理解与感知。在CVPR，ECCV，AAAI发表过文章，担任会议CVPR，ICCV，AAAI以及期刊IJCV，TVCG的审稿人。个人主页：https://mutianxu.github.io/

报告题目

TO-Scene: 用于三维桌面场景理解的大规模数据集

报告简介

在人们的生活中，大量的室内活动都是围绕各种不同的桌面展开的（比如：咖啡桌，课桌等）。因此，对于理解三维室内场景或者发展相关的应用（比如AR、VR、机器人抓取和交互）来说，研究桌面场景是一个至关重要的部分。但是，三维桌面场景在现有数据集中几乎无处可寻，因此我们很难直接应用深度神经网络等数据驱动的算法来开展实验和研究。为了弥补这一缺失，我们构建了一个用于三维桌面场景理解的大规模数据集 —— TO-Scene，其中包含 20,740场景，具有三种变体，可用于不同的应用场景。为了获取数据，我们设计了一个高效且可扩展的框架，通过“Mix CAD with Real Scan”的思想，开发了一个众包 UI将来自于ModelNet 和 ShapeNet的CAD 物体放置到 ScanNet 的桌面上。此外，我们提出了一种桌面感知学习策略，以更好地感知桌面小物体。我们还提供了一个真实的扫描测试集TO-Real来验证TO-Scene的实用价值。实验表明，在 TO-Scene 上训练的算法确实适用于真实的测试数据，我们提出的桌面感知学习策略极大地提高了三维语义分割和目标检测任务的模型性能。该工作已发表于ECCV 2022，并被选为Oral Presentation（2.7%入选率）。数据集和代码均已开源：https://github.com/GAP-LAB-CUHK-SZ/TO-Scene. 我们还会在未来举办TO-Scene的赛道挑战，欢迎大家交流！

讲者简介

金晔莹：

目前就读于新加坡国立大学的三年级博士生，导师Robby T. Tan,主要研究方向是图像恢复和生成，图像转换。在ICCV，ECCV，AAAI, ACCV上以第一作者身份发表了多篇论文。担任会议CVPR，ICCV，ECCV, AAAI, ACCV, IJCAI的审稿人。获得新加坡AISG奖学金。个人主页：https://jinyeying.github.io/

报告题目

无监督夜晚图像增强

报告简介

夜间图像不仅受到光线不足的影响，而且还受到光线分布不均的影响。大多数现有的夜间能见度增强方法主要集中在增强低光区域。这不可避免地导致了明亮区域的过度增强和饱和，例如那些受光效应（眩光、泛光等）影响的区域。为了解决这个问题，我们需要抑制明亮区域的光效应，同时，提高黑暗区域的强度。考虑到这个想法，我们引入了一种无监督的方法，整合了一个层分解网络和一个光效应抑制网络。给出一张夜间图像作为输入，我们的分解网络在无监督的特定层先验损失的指导下，学习分解阴影、反射和光效应层。我们的光效应抑制网络进一步抑制了光效应，同时增强了黑暗区域的照明。这个光效应抑制网络利用估计的光效应层作为指导，将重点放在光效应区域。为了恢复背景细节并减少瑕疵，我们提出了结构和高频一致性损失。我们对真实图像进行的定量和定性评估表明，我们的方法在抑制夜间光效果和提高黑暗区域的强度方面优于最先进的方法。代码和数据已经开源: https://github.com/jinyeying/night-enhancement

讲者简介

白皓天：

任香港科技大学广州校区的研究助理，导师为王林教授，主要研究方向是3D视觉与图模型。本科毕业于上海大学计算机工程与科学学院。在毕业后，作为研究助理加入香港中文大学（深圳）张瑞茂教授课题组，期间其工作被ECCV，Neurips顶级会议接受。

报告题目

SCM：适用于弱监督目标检测的Transformer空间矫正模块

报告简介

弱监督目标检测是一个仅通过图像文本定位目标的任务。例如，对数据集进行大规模标过程中，可以利用简单的文本信息，找到感性区域，以节省标注成本。然而，由于缺乏位置信息的标注，仅利用文本信息往往无法有效地找准目标，造成局部语意非常集中，而无法注意到物体边缘信息的现象。近年来，有研究[1]利用Vision Transformer的全局捕捉能力来解决这一问题。虽然有效地扩展了捕捉范围，但Transformer无法有效表达空间中语意信息的连续变化，造成预测范围过大或者过小。针对这一问题，我们提出了一个为Transformer量身定制的，可拆卸的空间矫正器SCM，来使其注意到空间与语意之间的联系，从而增强预测目标位置的能力。SCM是一个基于图模型算法的Transformer外接模块，除去可以有效增强Transformer对空间信息的能力外，它本身的参数规模十分轻量，并且在与模型完成训练后，可以直接拆除。在任务效果上，它凭借20%～30%的参数量超过了现有的基于CNN或Transformer的绝大部分模型。

[1] Gao, W. et. all, Ts-cam: Token semantic coupled attention map for weakly supervised object localization, ICCV, 2021.

大家可以在群内进行提问，请添加“AI TIME小助手（微信号：AITIME_HY）”，回复“ECCV”，将拉您进“AI TIME ECCV交流群”！

AI TIME微信小助手

主办单位：国际科技信息中心

承办：AI TIME

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于国际科技信息中心

国际科技信息中心由市科创委统筹，清华大学深圳国际研究生院牵头，超算中心、市科技图书馆、深圳清华研究院合作共建而成。中心立足深圳，面向世界，充分发挥深圳创新活跃、高新技术发达优势，致力于打造涵盖基础设施、科技文献、科学数据、情报信息、高端智库、智能服务等体系的“科技超脑”数智平台，赋能粤港澳大湾区科研与产业，加速科技创新，有力支撑粤港澳大湾区国际科技创新中心和综合性国家科学中心建设。

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了800多位海内外讲者，举办了逾400场活动，超400万人次观看。