【AI视野·今日CV 计算机视觉论文速览第206期】_hyperspectral image denoising with log-based robus-CSDN博客

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 26 May 2021
Totally 62 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

*****📚极化成像, 计算光线传输成像方法来捕捉时空变换的极化响应，解耦成像过程中的材料信息。(from 普林斯顿)

examining polarimetric material properties jointly with geometric properties is an open challenge that could enable unprecedented capabilities beyond geometric scene understanding, allowing to incorporate material-dependent semantics and imaging through complex transport, such as macroscopic scattering

在这里插入图片描述

**** 📚VTNET, 基于transformer的目标导航(from 澳大利亚国立)
在这里插入图片描述

📚BodyPressureWnet基于深度图的人体睡姿压力估计, (from 佐治亚理工)

Contact pressure between the human body and its surroundings has important implications
在这里插入图片描述

数据集与数据合成：

BodyPressureSD,： large synthetic human resting pose dataset,
SLP dataset [2]

***** 📚将多视角三维重建表面几何与反射的能量最小化问题,基于co-located 光源的低纹理物体未知反射下的多视角三维重建(from 澳大利亚国立东京大学 )
在这里插入图片描述

code:https://github.com/za-cheng/PM-PMVS/

📚基于多模态的视频中的人物聚合问题, 一种层次的聚类思想(from VGG 牛津)
聚类问题的identity–多模态：Face, Body, Voice: Video Person-Clustering with Multiple Modalities
在这里插入图片描述

code：https://www.robots.ox.ac.uk/~vgg/data/Video_Person_Clustering/

📚ViBERTgrid, 联合训练的多模态2D文件表示学习与文本中关键信息抽取。(from MSRA 北大中科大)
在这里插入图片描述

在这里插入图片描述
dataset: SROIE [1] dataset. ICDAR SROIE dataset INVOICE

📚基于文本的人检索, (from 南京信息工程大学)
在这里插入图片描述

code：https://github.com/OrangeYHChen/TIPCB

📚 Content-Augmented Feature Pyramid Network(CA-FPN), 内容增强的特征金字塔用于轻量级的transformer(from 中科院)
在这里插入图片描述

📚SBEVNet, 道路布局估计，可以得到鸟瞰视图的布局和课件的视野mask(from CMU )
在这里插入图片描述

📚高频信息图像恢复, (from 首尔大学)
在这里插入图片描述

📚稀疏监督下的单目深度估计, (from 三星研究院)
在这里插入图片描述

📚基于transformer的时域动作生成模型, 从视频中抽取动对应的动作(from 哈工大)
在这里插入图片描述

ref：https://blog.csdn.net/weixin_41595062/article/details/110143983

📚HDR方法, (from Izmir University of Economics, Izmir, Turkey )
在这里插入图片描述

📚下一代移动支付系统安全综述, (from Air University, Islamabad, Pakistan)
在这里插入图片描述

Daily Computer Vision Papers

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning
Authors Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi
长距离和短程时间建模是视频识别的两个互补和关键方面。最先进的技术侧重于短程时空时间建模，然后聚在于平均多个片段级别预测，以产生最终的视频级预测。因此，它们的视频级预测不考虑视频如何沿着时间尺寸演变的时空特征。在本文中，我们介绍了一种新颖的动态段聚合DSA模块来捕获片段之间的关系。更具体地，我们尝试为卷积操作生成动态内核，以便自适应地聚合相邻片段之间的长距离时间信息。 DSA模块是一个有效的插头和播放模块，可以与基于货架夹的模型相结合，即TSM，I3D，以最小的开销执行强大的长距离建模。最终的视频架构，作为dsanet。我们对多个视频识别基准进行广泛的实验，即迷你动力学200，动力学400，某些东西V1和ActivityNet以显示其优越性。我们提出的DSA模块显示为显着利用各种视频识别模型。例如，配备DSA模块，I3D Reset 50的前1个精度从动力学400上的74.9到78.2提高到78.2。代码将可用。

Real-time Monocular Depth Estimation with Sparse Supervision on Mobile
Authors Mehmet Kerim Yucel, Valia Dimaridou, Anastasios Drosou, Albert Sa Garriga
单眼相对或度量深度估计是各种应用的关键任务，例如自主车辆，增强现实和图像编辑。近年来，随着移动设备的可用性的增加，准确和移动友好的深度模型获得了重要性。越来越准确的模型通常需要更多的计算资源，这禁止在移动设备上使用这种模型。移动用例可以说是最不受限制的案例，这需要高准确但是移动友好的架构。因此，我们尝试回答以下问题，我们如何改进模型，而无需添加进一步的复杂性即参数，我们可以系统地探索来自各种维度的相对深度估计模型的设计空间，我们展示了关键设计选择和消融研究，即使是现有的架构也可以对最先进的竞争性能达到高度竞争的性能，具有一小部分复杂性。我们的研究跨越深度骨干模型选择过程，知识蒸馏，中间预测，模型修剪和损失重新平衡。我们表明我们的模型仅使用DIW作为监控数据集，在DIW上实现0.1156 WHDR，具有2.6米的参数，在移动GPU上达到37个FP，无需修剪或硬件特定优化。我们的模型的修剪版本达到0.1208 WHDR，带有1M参数，在移动GPU上达到44个FPS。

Temporal Action Proposal Generation with Transformers
Authors Lining Wang, Haosen Yang, Wenhao Wu, Hongxun Yao, Hujie Huang
变压器网络在建模长距离上下文信息中是有效的，并且最近在自然语言处理域中展示了示例性性能。传统上，时间动作提议生成TAPG任务分为两个主子任务边界预测和提案置信度预测，其依赖于帧级依赖性和提议级关系。为了捕获不同级别的粒度的依赖性，本文直观地提出了一个统一的时间动作提议生成框架，该提议使用原始变压器称为TAPG变压器，由边界变压器和建议变压器组成。具体地，边界变压器捕获长期时间依赖性以预测精确的边界信息，并且提案变压器学习丰富的帧间建议关系以获得可靠的置信度评估。广泛的实验是在两个流行的基准接受目录1.3和Thumos14上进行的，结果表明，TAPG变压器优于现有技术的状态。配备现有的Action Classifier，我们的方法在时间动作本地化任务上实现了显着性能。可以使用代码和模型。

Towards Unpaired Depth Enhancement and Super-Resolution in the Wild
Authors Aleksandr Safin, Maxim Kan, Nikita Drobyshev, Oleg Voynov, Alexey Artemov, Alexander Filippov, Denis Zorin, Evgeny Burnaev
使用商品传感器捕获的深度映射通常具有低质量，并且需要增强这些地图，以便在许多应用中使用这些地图。最先进的数据驱动方法深度地图超级分辨率依赖于同一场景的登记对的低和高分辨率深度图。收购现实世界配对数据需要专门的设置。另一种替代方案，通过回顾，添加噪声和其他人工劣化方法，从高分辨率映射产生低分辨率映射，并不完全捕获现实世界低分辨率图像的特征。因此，在这种人工配对数据上培训的监督学习方法可能无法在现实世界的低分辨率输入上表现良好。我们考虑基于从未配对数据学习的深度地图增强方法。虽然已经提出了许多用于未配对图像到图像翻译的技术，但大多数都不适用于深度图。我们提出了一种用于同时深度增强和超级分辨率的未配对学习方法，基于学习的降级模型和表面正常估计作为产生更精确的深度图的功能。我们展示了我们的方法优于现有的未配对方