直播预告 | 智能制造产业升级过程中的计算机视觉问题 CVPR2022论文预讲

AITIME论道

于 2022-03-21 19:14:48 发布

阅读量412

点赞数

文章标签：算法人工智能大数据计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247500251&idx=1&sn=296f29bf68a197fd14b1c0fbd153397d&chksm=e932f37dde457a6b810e3b0a43cb2cdaaa154ef5e1da1894ff96edd4117063c73fb29d647c73&scene=126&&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

3月23日、24晚19:30，AI TIME 智能制造产业升级过程中的计算机视觉问题 CVPR2022论文预讲专场活动我们邀请了来自香港中文大学的姚旭峰博士、胡涛博士、周昆博士以及田倬韬博士开启两场CVPR2022论文预讲专场！

哔哩哔哩直播通道

扫码关注AITIME哔哩哔哩官方账号预约直播

CVPR2022论文预讲一

3月23日晚 7:30-8:30

AI TIME 特别邀请香港中文大学姚旭峰博士、胡涛博士为大家带来精彩分享。

★ 嘉宾简介 ★

姚旭峰：

香港中文大学-计算机与工程学院博士一年级在读。主要研究方向有域泛化，域迁移，文字检测与识别等。在TCAD,ICCAD,AAAI,CVPR国际期刊和会议中发表多篇论文。所提出的OCR算法成功落地于手机端和云端等项目应用中。

分享内容：对比学习在域泛化中的应用

领域泛化是指训练的问题来自不同源域集合的模型可以直接泛化到目标域。对比学习是一种具有极大潜力的解决方案，它尝试通过学习领域之间不变的语义关系来获取更泛化的知识。一个简单的方法是让来自不同域的正样本对更靠近，同时推动其他负样本对距离更远。在本文中，我们发现直接应用基于对比的方法（例如，有监督对比学习）在领域泛化方面可能效果不佳。我们猜测不同领域间巨大的分布差可能会导致模型性能的下降。因此我们提出一种代理对比解决方案。我们使用代理-样本关系来替代样本对关系，使模型取得了更好的泛化能力。

胡涛：

香港中文大学计算机系博士生三年级在读，2016年于电子科技大学自动化专业获得学士学位，2019年于中国科学院大学获得计算机科学硕士学位。主要研究方向为计算机三维重建和场景渲染，提出了自回归优化模型用于关键点检测，自监督网格模型用于单图物体三维重建，高效率神经辐射场用于加速高质量三维重建和渲染任务。在AAAI，ECCV，CVPR国际会议中担任审稿人并发表多篇一作论文。微软亚洲研究院实习期间研究细粒度分类模型显著提高了模型是识别精度。获得京东猪脸识别竞赛中国区亚军，并联合创立翔创科技，将技术落地应用于养殖行业个体识别认证。

分享内容：高效神经辐射场

神经辐射场（NeRF）被提出，并因其对三维场景的高质量表示而被疯狂地应用于各种任务。然而，NeRF的局限性在于每个场景的训练时间和每个图像的测试时间很长。在本文中，我们提出了EfficientNeRF，作为一种高效的基于NeRF的方法来表示三维场景并合成新视角图像。尽管已经提出了许多方法来加速训练或测试过程，但其他每个过程通常需要更多的运行时间。我们分析了采样点的密度和权重分布，然后分别提出了在粗略和精细阶段的有效采样和关键采样，以显著提高采样效率。此外，我们设计了一种新颖的数据结构，在测试过程中对整个场景进行缓存，以加快测试速度。最后，我们的方法可以减少88%以上的训练时间，达到200-500 FPS的测试速度，同时还能达到有竞争力的精度。实验证明，我们的方法可以促进NeRF在现实世界中的实用性。

CVPR2022论文预讲二

3月24日晚 7:30-8:30

AI TIME 特别邀请香港中文大学周昆博士、田倬韬博士为大家带来精彩分享。

★ 嘉宾简介 ★

周昆

香港中文大学（深圳）理工学院博士一年级在读，并在思谋科技从事计算机视觉算法与系统的研发工作。主要研究兴趣与方向包含三维人体姿态和网格估计、图像与视频超分辨率、视频去模糊、视频去噪、视频插帧、图像增强等。在T-PAMI, CVPR, ICCV, NeurIPS, AAAI等国际期刊和会议上发表多篇一作/共同一作论文。所研发出的基于单张彩图估计三维人体姿态与网格的技术- HEMlets PoSh曾在所有相关主流评测集上排名最前列；其在视频和图像画质增强方面的算法工作成功的贡献和应用于多个（高清、超高清和VR）视频画质增强与修复的项目与产品中。

内容分享：重新审视视频修复中的时序对齐问题

视频修复,包括但不限于视频超分辨率，视频去模糊和视频去噪,是计算机视觉中的重要问题。准确的时序对齐在视频修复任务中起到关键的作用。其中长距离的时序对齐充满挑战。近期有一些方法尝试采用渐进式的多步对齐策略来缓解这一问题。然而，这种渐进式的对齐方式容易引入累积误差，导致不理想的视频修复效果。本文重新审视了现有两种主流的时序对齐方法，并提出了一种迭代式的时序对齐策略。具体而言，对于多个长距离的对齐，我们采用迭代优化的方式消除多步对齐的累积误差。同时，为了提高融合的性能，我们提出了一种基于时序信息准确性和时序信息一致性约束策略。基于在多个数据集上充分的定量与定性实验对比，我们的方法在视频超分辨率、视频去噪和视频去模糊三个任务中均取得了SOTA的性能，同时还能保持运行速度、模型大小与显存的优势。

田倬韬：

香港中文大学计算机科学与工程系博士四年级在读，2018年从哈尔滨工业大学计算机学院珠峰计划班获得工学学位。目前主要研究兴趣与方向包含语义分割、半监督分割、小样本分割等。长期受邀担任CVPR, ECCV, ICCV, IJCV, ICLR, AAAI等国际期刊和会议的审稿人, 在T-PAMI, CVPR, ICCV知名期刊和会议上发表多篇一作/共同一作论文。曾于ICDAR2019 Arbitrary Scene Text Recognition Challange 获得第二名。

内容分享：广义小样本语义分割

训练语义分割模型需要大量精细标注的数据，所以模型很难快速适应只有少量数据未见过的新类别。经典小样本分割 (FS-Seg) 以许多限制条件解决了这个问题。因此，为了更好地符合实际应用的需求，通过减少经典场景的约束，本工作提出了广义小样本语义分割(GFS-Seg)。作为对于经典小样本语义分割的拓展，GFS-Seg需要在没有新目标类别信息的情况下，同时分割出所有可能存在的见过和没见过的类别。同时，本文说明了当下具有代表性的 FS-Seg 方法在 GFS-Seg 上表现不佳，且性能差异主要受限于 FS-Seg的约束：1.需要已知目标类别信息，来分割出测试图中的特定区域；2.只关注未见过类别的分割效果，不关注已经见过的类别上性能。此外，由于上下文的环境信息对于语义分割至关重要，我们提出了环境感知原型学习 (CAPL)，CAPL能让分类器中的类别原型能够更好地描述不同样本的特征分布，以达到更好的性能。CAPL能够被轻松泛化应用到常见的语义分割模型（如PSPNet和DeepLab）上，且其在FS-Seg和GFS-Seg的两个基准数据集(Pascal-VOC以及COCO)上都取得了优异的性能。

直播结束后大家可以在群内进行提问，请添加“AI TIME小助手（微信号：AITIME_HY）”，回复“cvpr，将拉您进“AI TIME CVPR2022 交流群”！