今晚7:30 | CVPR专场三！

AITIME论道

于 2021-07-29 10:21:06 发布

阅读量246

点赞数

文章标签：计算机视觉人工智能机器学习深度学习编程语言

原文链接：http://www.aitime.cn/

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

7月29日 19:30~21:00

AI TIME特别邀请了来自清华大学、UIUC、中山大学的博士生，来为大家带来分享！

哔哩哔哩直播通道

扫码关注AITIME哔哩哔哩官方账号

观看直播

链接：https://live.bilibili.com/21813994

★ 嘉宾介绍 ★

王谷：

清华大学自动化系在读博士生，师从季向阳教授，主要研究方向为6D物体姿态估计。研究成果曾发表于ECCV/ICCV/CVPR/IJCV等（多次入选口头报告），曾获BOP Challenge 2019/2020单赛道冠军。

个人主页: https://wangg12.github.io/

报告题目：

GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation

内容简介：

目前单目6D物体姿态估计中效果比较好的方案是一类间接法，即先利用CNN预测出关键点建立2D-3D对应关系，然后利用PnP/RANSAC算法求解pose。这类方法存在一些问题，例如PnP/RANSAC的计算复杂度较高；不是端到端可训练的，无法得到可微分的pose；对应关系的损失函数不一定能反映真实的pose误差。本文提出一种基于几何指导的单目6D物体姿态直接回归网络，将间接法中的几何特征作为直接回归法中的指导，并且利用几何特征类似图像块的性质，利用一个简单的卷积Patch-PnP模块直接回归pose，在公开的数据集上达到当前最佳的性能。代码：https://github.com/THU-DA-6D-Pose-Group/GDR-Net

周宇乾：

美国伊利诺伊香槟分校（UIUC）在读博士，曾师从已故计算机科学家Thomas Huang（黄煦涛）教授。本科和硕士毕业于香港科技大学，是港科大2015年度学术成就奖获得者。曾在旷视科技，微软研究院和Adobe实习。发起和组织了ICCV/ECCV有关真实世界低质量输入识别和检测的子会议（RLQ2019/2020）及相关世界挑战赛。主要研究方向为图像修复，图像生成，低质量图片分析，医学图像分析，情感计算和人机交互等，研究成果发表于CVPR/ICCV/AAAI/MICCAI等。

个人主页：http://yzhouas.github.io/

报告题目：

基于单一参考图的

图像填充（inpainting）技术

内容简介：

图像修复（填充）旨在从缺失的图片目标区域中合理地恢复内容，以使图片恢复至未缺失之前的状态。大多数现有的技术利用图像中存在的内容相似性，或大规模数据中学习的语义和纹理信息来填充图片的缺失部分。但现有的技术在面对大面积缺失时表现不佳，一方面很难恢复图像的原有语义，另一方面很容易产生人工生成的痕迹。然而，如果有另外的一张相同场景的参考图作为依据，我们就可以把图片填充问题转变为图片融合及生成问题。此类技术有着未被人充分关注但颇具潜力的应用价值，源于我们通常有着一景多拍的拍摄习惯和大量的参考图片。此次报告介绍我们Adobe Photoshop团队发表于CVPR2021的研究成果TransFill，利用一种多个单应变换（Multi-Homography）、多个色彩及空间（color-spatial）变换的融合方法，使用参考图中的内容对目标图进行填充。此方法结合了深度检测、图片配准、深度学习的图片空间变换和颜色匹配、单图填充等最优方法，以实现对参考图内容的重用。模型在具有颜色差和视差的成对的用户图像上亦得到了最优的填充效果。报告中我们将详细介绍方法的细节、遇到的挑战和未来的方向。

刘凌波：

中山大学博士；悉尼大学访问学者。主要研究兴趣是城市计算，特别是面向交通出行场景的城市路网提取、人群计数、流量/需求预测、个性化推荐和订单分配等任务；在CVPR，ICCV，IJCAI，ACM MM, TITS, TNNLS，TMM等国际顶级刊物上发表论文15篇。

个人主页：http://lingboliu.com/

报告题目：

Exploring intermediate representation for monocular vehicle pose estimation

内容简介：

人群计数是一项基本但又十分具有挑战性的视觉任务，它需要丰富的信息来生成像素级别的人群密度图。之前的方法大多数仅使有限的用光学图像信息，在不受控场景下无法很好地发掘潜在的行人。在这项工作中，我们发现，融合光学信息和热感信息可以极大地提升人群计数性能。为了促进该领域未来的科学研究，我们首创地引入了一个大型RGBT人群计数（RGBT-CC）基准，该基准包含2,030对光学/热感图像，总共标注了138,389位行人。为了进一步促进多模式人群计数的研究，我们提出了一种跨模态协同表征学习框架，该框架由多个模态特异分支，一个模态共享分支以及一个信息聚合分散模块（IADM）组成，以充分捕捉不同模态数据的互补性。具体来说，我们的IADM由两个协同信息传递器组成，通过对偶信息传播机制动态地增强模态共享表征和模态特异分支表征。在RGBT-CC数据集上进行的大量实验充分地验证了我们框架对RGBT人群计数的有效性。此外，我们的方法在RGBD人群计数任务上也取得了业内领先的性能。相关的代码和数据集公布于

http://lingboliu.com/RGBT_Crowd_Counting.html。

# 今日视频推荐 #

直播结束后我们会邀请讲者在微信群中与大家答疑交流，请添加“AI TIME小助手（微信号：AITIME_HY）”，回复“cvpr”，将拉您进“AI TIME CVPR 会议交流群”！