【AI视野·今日CV 计算机视觉论文速览第242期】Mon, 14 Feb 2022_towards weakly-supervised text spotting using a mu-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/124179641

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 14 Feb 2022
Totally 44 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Borrowing from yourself: Faster future video segmentation with partial channel update
Authors Evann Courdier, Fran ois Fleuret
语义分割是计算机视觉文献中一个很好解决的话题，但快速准确的视频处理网络的设计仍然具有挑战性。此外，为了在嵌入式硬件上运行，计算机视觉模型通常必须在精度上做出妥协才能以所需的速度运行，因此延迟精度权衡通常是这些实时系统设计的核心。

Patch-NetVLAD+: Learned patch descriptor and weighted matching strategy for place recognition
Authors Yingfeng Cai, Junqiao Zhao, Jiafeng Cui, Fenglin Zhang, Chen Ye, Tiantian Feng
在城市或室内场景等具有相似场景的区域中的视觉位置识别 VPR 是一项重大挑战。使用全局描述符的现有 VPR 方法难以捕获场景中的局部特定区域 LSR，因此在这种情况下容易出现定位混乱。因此，找到对位置识别至关重要的 LSR 成为关键。为了应对这一挑战，我们引入了 Patch NetVLAD，其灵感来自基于补丁的 VPR 研究。我们的方法提出了一种带有三元组损失的微调策略，以使 NetVLAD 适用于提取补丁级描述符。此外，与现有方法平等对待图像中的所有补丁不同，我们的方法提取 LSR 的补丁，这些补丁在整个数据集中出现的频率较低，并通过为它们分配适当的权重使它们在 VPR 中发挥重要作用。

Deep soccer captioning with transformer: dataset, semantics-related losses, and multi-level evaluation
Authors Ahmad Hammoudeh, Bastein Vanderplaetse, St phane Dupont
这项工作旨在使用深度学习为足球视频生成字幕。在此背景下，本文介绍了数据集、模型和三级评估。该数据集由 22k 个字幕剪辑对和三个视觉特征图像、光流、修复 500 小时 emph SoccerNet 视频组成。该模型分为三个部分，Transformer 学习语言，ConvNets 学习视觉，语言和视觉特征的融合生成字幕。该论文建议在三个级别上评估生成的字幕，使用常用的评估指标，例如 BLEU 分数和 CIDEr，这意味着领域专家的描述质量，以及语料库生成的字幕的多样性。该论文表明，生成的字幕的多样性已经从 0.07 提高到 0.18，其中语义相关的损失会优先考虑选定的单词。语义相关损失和更多视觉特征光流的利用，修复将归一化字幕得分提高了 28 分。

SuperCon: Supervised Contrastive Learning for Imbalanced Skin Lesion Classification
Authors Keyu Chen, Di Zhuang, J. Morris Chang
卷积神经网络 CNN 在皮肤病变分类方面取得了巨大成功。需要一个平衡的数据集来训练一个好的模型。然而，由于在实践中会出现不同的皮肤损伤，严重甚至最致命的皮肤损伤类型（例如黑色素瘤）在数据集中自然具有相当少的数量。在那方面，分类性能下降广泛发生，让 CNN 在类别不平衡的皮肤病变图像数据集上运行良好非常重要。在本文中，我们提出了 SuperCon，这是一种两阶段的训练策略，用于克服皮肤病变分类中的类不平衡问题。它包含两个阶段：i 表示训练，尝试学习在类内紧密对齐且远离类间的特征表示，以及 ii 分类器微调，旨在学习基于学习的表示正确预测标签的分类器。在实验评估中，我们的方法和其他现有方法对皮肤病变基准数据集进行了广泛的比较。

Tiny Object Tracking: A Large-scale Dataset and A Baseline
Authors Yabin Zhu, Chenglong Li, Yao Liu, Xiao Wang, Jin Tang, Bin Luo, Zhixiang Huang
在实际应用中经常出现的微小物体外观和特征较弱，并且在物体检测和分割等普通视觉任务中越来越受到关注。为了促进微小目标跟踪的研究和发展，我们创建了一个大规模的视频数据集，其中包含 434 个序列，总共超过 217K 帧。每个帧都用高质量的边界框仔细注释。在数据创建中，我们考虑了 12 个挑战属性以涵盖广泛的视点和场景复杂性，并对这些属性进行注释以促进基于属性的性能分析。为了在微小对象跟踪中提供强大的基线，我们提出了一种新颖的多级知识蒸馏网络 MKDNet，它在一个统一的框架中进行三级知识蒸馏，以有效增强跟踪微小对象的特征表示、辨别和定位能力。在所提出的数据集上进行了广泛的实验，结果证明了 MKDNet 与最先进的方法相比的优越性和有效性。

Video-driven Neural Physically-based Facial Asset for Production
Authors Longwen Zhang, Chuxiao Zeng, Qixuan Zhang, Hongyang Lin, Ruixiang Cao, Wei Yang, Lan Xu, Jingyi Yu
用于制作令人信服的 3D 动态人脸的生产级工作流程长期以来一直依赖于用于几何和纹理生成、动作捕捉和绑定以及表情合成的各种劳动密集型工具。最近的神经方法使单个组件自动化，但相应的潜在表示不能像传统工具那样为艺术家提供明确的控制。在本文中，我们提出了一种新的基于学习的视频驱动方法，用于生成具有高质量物理资产的动态面部几何图形。由于来自视频的密集时间采样和用于调节潜在空间的显式面部表情控制，两个关键组件是结构良好的潜在空间。对于数据收集，我们构建了一个混合多视图光度捕获阶段，与超快速摄像机相结合以获得原始 3D 面部资产。然后，我们使用单独的 VAE 对面部表情、几何和基于物理的纹理进行建模，该 VAE 具有基于全局 MLP 的跨潜在空间的表情映射，以保留各个属性的特征，同时保持对几何和纹理的显式控制。我们还引入将增量信息建模为物理基础纹理的皱纹贴图，实现动态纹理的高质量渲染。我们展示了我们在高保真表演者特定面部捕捉和跨身份面部运动重定向方面的方法。此外，还可以部署我们的神经资产以及快速适应方案来处理野外视频。此外，我们通过提供有希望的基于物理的编辑结果（如几何和材料编辑或具有高度真实感的皱纹转移）来激发我们显式面部解开策略的效用。

Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer
Authors Yair Kittenplon, Inbal Lavi, Sharon Fogel, Yarin Bar, R. Manmatha, Pietro Perona
由于联合优化文本检测和识别组件的好处，文本检测端到端方法最近在文献中引起了关注。现有方法通常在检测和识别分支之间有明显的分离，需要对这两个任务进行准确的注释。我们介绍了 TextTranSpotter TTS，这是一种基于转换器的文本定位方法和第一个可以在完全监督和弱监督设置下进行训练的文本定位框架。通过学习每个单词检测的单个潜在表示，并使用基于匈牙利损失的新颖损失函数，我们的方法减轻了对昂贵的定位注释的需求。仅使用真实数据上的文本转录注释进行训练，我们的弱监督方法与以前最先进的完全监督方法相比具有竞争力的性能。

Multi-Modal Fusion for Sensorimotor Coordination in Steering Angle Prediction
Authors Farzeen Munir, Shoaib Azam, Byung Geun Lee, Moongu Jeon
模仿学习用于学习感觉运动协调，以端到端方式进行转向角预测，需要专家演示。这些专家演示与环境感知和车辆控制数据相结合。传统的基于帧的 RGB 相机是用于获取环境感知数据的最常见的外部感知传感器模式。当用作学习端到端横向控制的单一模式时，基于帧的 RGB 相机已经产生了可喜的结果。然而，传统的基于帧的RGB相机在光照变化条件下的可操作性有限，并且受到运动模糊的影响。事件相机为基于帧的 RGB 相机提供补充信息。这项工作探索了基于帧的 RGB 和事件数据的融合，通过预测转向角来学习端到端横向控制。此外，来自事件数据的表示如何与基于帧的 RGB 数据融合有助于预测自动驾驶车辆的横向控制。为此，我们提出了 DRFuser，一种用于学习端到端横向控制的新型卷积编码器解码器架构。编码器模块在基于帧的 RGB 数据和事件数据以及自注意力层之间分支。此外，这项研究还为我们自己收集的数据集做出了贡献，该数据集由事件、基于帧的 RGB 和车辆控制数据组成。在我们收集的数据集、Davis Driving 数据集 DDD 和 Carla Eventscape 数据集上对所提出方法的有效性进行了实验评估。

Exemplar-free Online Continual Learning
Authors Jiangpeng He, Fengqing Zhu
针对现实世界的场景，在线持续学习旨在在每个数据仅被学习者观察一次的条件下，从顺序可用的数据中学习新任务。尽管最近的工作通过存储部分学习任务数据作为知识重放的样本取得了显著成就，但性能很大程度上取决于存储样本的大小，而存储消耗是持续学习的重要制约因素。此外，由于隐私问题，存储样本对于某些应用程序可能并不总是可行的。在这项工作中，我们通过利用最近的类均值 NCM 分类器提出了一种新的无样本方法，其中类均值是在训练阶段对迄今为止通过在线均值更新标准看到的所有数据进行估计的。我们专注于图像分类任务，并对包括 CIFAR 100 和 Food 1k 在内的基准数据集进行广泛的实验。

Bench-Marking And Improving Arabic Automatic Image Captioning Through The Use Of Multi-Task Learning Paradigm
Authors Muhy Eddin Za ter, Bashar Talaftha
社交媒体使用的不断增加和互联网上的视觉内容加速了计算机视觉领域的研究，特别是图像字幕任务。生成最能描述图像的标题的过程对于各种应用来说是一项有用的任务，例如它可以用于图像索引和作为视障人士的助听器。近年来，图像字幕任务在数据集和架构方面都取得了显着进步，因此字幕质量达到了惊人的表现。然而，这些进步中的大部分，尤其是在数据集上的进步都是针对英语的，这使得其他语言（如阿拉伯语）落后了。尽管有超过 4.5 亿人使用的阿拉伯语是互联网上增长最快的语言，但它缺乏推进图像字幕研究所需的基本支柱，例如基准或统一数据集。这项工作试图通过提供统一的数据集和基准来加速这项任务的协同作用，同时还探索可以提高阿拉伯图像字幕性能的方法和技术。探索了多任务学习的使用，同时探索了各种单词表示和不同的特征。结果表明，使用多任务学习和预先训练的词嵌入显着提高了图像字幕的质量，但所呈现的结果表明，与英语相比，阿拉伯语字幕仍然落后。

WAD-CMSN: Wasserstein Distance based Cross-Modal Semantic Network for Zero-Shot Sketch-Based Image Retrieval
Authors Guanglong Xu, Zhensheng Hu, Jia Cai
基于零镜头草图的图像检索ZSSBIR作为计算机视觉的一个热门研究分支，最近引起了广泛关注。与基于草图的图像检索 SBIR 不同，ZSSBIR 的主要目的是检索在训练期间可能不会出现的自由手绘草图的自然图像。以前的方法使用语义对齐的草图图像对或使用内存昂贵的融合层将视觉信息投影到低维子空间，这忽略了高度抽象的草图和相关图像之间显着的异构跨域差异。这可能会在训练阶段产生较差的性能。为了解决这个问题并克服这个缺点，我们提出了一个用于 ZSSBIR 的基于 Wasserstein 距离的跨模态语义网络 WAD CMSN。具体来说，它首先以对抗训练的方式，通过 Wasserstein 距离将每个分支草图、图像的视觉信息投影到一个共同的低维语义子空间中。此外，利用身份匹配损失来选择有用的特征，不仅可以捕获完整的语义知识，还可以缓解WAD CMSN模型引起的过拟合现象。

ACORT: A Compact Object Relation Transformer for Parameter Efficient Image Captioning
Authors Jia Huei Tan, Ying Hua Tan, Chee Seng Chan, Joon Huang Chuah
最近将基于 Transformer 的架构应用于图像字幕的研究已经产生了最先进的图像字幕性能，利用了 Transformer 在自然语言任务上的成功。不幸的是，虽然这些模型运行良好，但一个主要缺陷是它们的模型尺寸过大。为此，我们提出了图像描述 Transformers Radix Encoding、跨层参数共享和注意力参数共享的三种参数缩减方法。通过结合这些方法，我们提出的 ACORT 模型的参数比基线模型少 3.7 到 21.6 倍，而不会影响测试性能。 MS COCO 数据集的结果表明，我们的 ACORT 模型与基线和 SOTA 方法相比具有竞争力，CIDEr 得分为 126。最后，我们提供了定性结果和消融研究，以进一步证明所提出的变化的有效性。

Incremental Learning of Structured Memory via Closed-Loop Transcription
Authors Shengbang Tong, Xili Dai, Ziyang Wu, Mingyang Li, Brent Yi, Yi Ma
这项工作提出了一种最小计算模型，用于在增量设置中学习多个对象类的结构化记忆。我们的方法基于在低维特征空间中建立多个类及其相应子空间之间的闭环转录，称为线性判别表示。我们的方法比现有的增量学习方法更简单、更有效，在模型大小、存储和计算方面，它只需要一个具有用于判别和生成目的的特征空间的单一、固定容量的自动编码网络。通过在单个基于降速的目标上解决编码和解码映射之间的受限极小极大博弈，同时优化所有网络参数，无需架构操作。

Coded ResNeXt: a network for designing disentangled information paths
Authors Apostolos Avranas, Marios Kountouris
为了避免将神经网络视为高度复杂的黑匣子，深度学习研究社区试图建立可解释的模型，让人类能够理解模型做出的决定。不幸的是，重点主要集中在处理与最后一层相关的非常高级的特征上。在这项工作中，我们以更一般的方式研究用于分类的神经网络架构，并介绍了一种算法，该算法在训练之前定义了每类信息流经的网络路径。我们表明，使用我们的算法，我们可以通过删除不参与该类的预定义信息路径的参数（约占总参数的 60 个）来为特定类提取更轻量级的单一用途二元分类器。值得注意的是，利用编码理论来设计信息路径使我们能够使用中间网络层进行早期预测，而无需评估整个网络。

Learning the Pedestrian-Vehicle Interaction for Pedestrian Trajectory Prediction
Authors Chi Zhang 1 , Christian Berger 1 1 Department of Computer Science and Engineering, University of Gothenburg, Gothenburg, Sweden
在本文中，我们研究了行人和车辆之间的交互，并提出了一种新的神经网络结构，称为行人车辆交互 PVI 提取器，用于学习行人车辆交互。我们在顺序方法长短期记忆 LSTM 模型和非顺序方法卷积模型上实现了所提出的 PVI 提取器。我们使用 Waymo 开放数据集，其中包含带有行人和车辆注释的真实城市交通场景。对于基于 LSTM 的模型，我们提出的模型与 Social LSTM 和 Social GAN 进行了比较，使用我们提出的 PVI 提取器将平均位移误差 ADE 和最终位移误差 FDE 分别降低了 7.46 和 5.24 。对于基于卷积的模型，我们提出的模型与 Social STGCNN 和 Social IWSTCNN 进行了比较，并且使用我们提出的 PVI 提取器将 ADE 和 FDE 分别降低了 2.10 和 1.27。

Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs
Authors Daniel Louzada Fernandes, Marcos Henrique Fonseca Ribeiro, Fabio Ribeiro Cerqueira, Michel Melo Silva
由于辅助技术和人工智能领域的成就，最近出现了几项针对视力障碍者的服务。尽管辅助系统的可用性有所增长，但仍缺乏支持特定任务的服务，例如了解在线内容（例如网络研讨会）中呈现的图像上下文。图像字幕技术及其变体作为辅助技术受到限制，因为它们在生成特定描述时无法满足视障人士的需求。我们提出了一种生成网络研讨会图像上下文的方法，该方法将密集字幕技术与一组过滤器相结合，以适应我们领域中的字幕，以及用于抽象摘要任务的语言模型。

Face Beneath the Ink: Synthetic Data and Tattoo Removal with Application to Face Recognition
Authors Mathias Ibsen, Christian Rathgeb, Pawel Drozdowski, Christoph Busch
近年来，人脸分析系统取得了显着进步，如今已在众多应用场景中得到应用。然而，已发现这些系统受到面部改变（如纹身）的负面影响。为了更好地理解和减轻面部纹身在面部分析系统中的影响，需要有和没有纹身的个人图像的大型数据集。为此，我们提出了一种自动将逼真的纹身添加到面部图像的生成器。此外，我们通过训练一个基于深度学习的模型来从面部图像中去除纹身，证明了生成的可行性。实验结果表明，可以在不降低图像质量的情况下从真实图像中去除面部纹身。

A Field of Experts Prior for Adapting Neural Networks at Test Time
Authors Neerav Karani, Georg Brunner, Ertunc Erdil, Simin Fei, Kerem Tezcan, Krishna Chaitanya, Ender Konukoglu
卷积神经网络 CNN 在图像分析任务中的性能通常会因训练和测试图像之间存在与采集相关的分布变化而受到损害。最近，有人提出通过为每个测试图像微调训练有素的 CNN 来解决这个问题。这种测试时间适应 TTA 是一种有前途且实用的策略，可以提高对分布变化的鲁棒性，因为它既不需要机构之间的数据共享，也不需要注释额外的数据。以前的 TTA 方法使用辅助模型来增加从测试图像中提取的输出和/或特征与训练图像的相似度。通常使用 CNN 建模的此类助手可能是特定于任务的，并且它们本身容易受到其输入分布变化的影响。为了克服这些问题，我们建议通过匹配测试和训练图像的特征分布来执行 TTA，正如之前由 FoE 领域的专家建模的那样。 FoE 将复杂的概率分布建模为许多更简单的专家分布的产物。我们使用经过训练的任务 CNN 的特征的一维边缘分布作为 FoE 模型中的专家。此外，我们计算任务 CNN 特征的补丁的主要成分，并将 PCA 负载的分布视为额外的专家。我们使用来自 17 个诊所的数据，在 4 个解剖区域的 5 个 MRI 分割任务健康组织和 1 个解剖结构中的病灶上验证该方法，并使用来自 3 个诊所的数据在 MRI 配准任务上验证该方法。我们发现，所提出的基于 FoE 的 TTA 通常适用于多个任务，并且优于所有以前的 TTA 方法进行病变分割。对于健康组织分割，所提出的方法优于其他与任务无关的方法，但以前专门为分割而设计的 TTA 方法对大多数测试数据集表现最好。

SafePicking: Learning Safe Object Extraction via Object-Level Mapping
Authors Kentaro Wada, Stephen James, Andrew J. Davison
机器人需要对象级别的场景理解来操作对象，同时推理对象之间的接触、支持和遮挡。给定一堆对象，对象识别和重建可以识别对象实例的边界，为对象如何形成和支撑堆提供重要线索。在这项工作中，我们提出了一个系统，SafePicking，它集成了对象级映射和基于学习的运动规划，以生成从一堆中安全地提取被遮挡的目标对象的运动。规划是通过学习一个深度 Q 网络来完成的，该网络接收对预测姿势的观察和一个基于深度的高度图以输出运动轨迹，训练以最大化安全度量奖励。我们的结果表明，姿势和深度感知的观察融合为模型提供了更好的性能和鲁棒性。

CLIPasso: Semantically-Aware Object Sketching
Authors Yael Vinker, Ehsan Pajouheshgar, Jessica Y. Bo, Roman Christian Bachmann, Amit Haim Bermano, Daniel Cohen Or, Amir Zamir, Ariel Shamir
由于线条图的简单和最小的性质，抽象是素描的核心。抽象需要识别对象或场景的基本视觉属性，这需要语义理解和高级概念的先验知识。因此，抽象描绘对艺术家来说是具有挑战性的，对机器来说更是如此。我们提出了一种对象草图绘制方法，该方法可以在几何和语义简化的指导下实现不同层次的抽象。虽然草图生成方法通常依赖于显式草图数据集进行训练，但我们利用 CLIP 对比语言图像预训练的卓越能力从草图和图像中提取语义概念。我们将草图定义为一组 B zier 曲线，并使用可微分光栅器直接针对基于 CLIP 的感知损失优化曲线参数。抽象程度是通过改变笔画的数量来控制的。

Multi-Modal Knowledge Graph Construction and Application: A Survey
Authors Xiangru Zhu, Zhixu Li, Xiaodan Wang, Xueyao Jiang, Penglei Sun, Xuwu Wang, Yanghua Xiao, Nicholas Jing Yuan
近年来，以知识图谱快速增长为特征的知识工程再次兴起。然而，现有的知识图谱大多是用纯符号表示的，这损害了机器理解现实世界的能力。知识图谱的多模化是实现人机智能的必然关键步骤。这项努力的结果是多模态知识图 MMKGs。在这项由文本和图像构建的 MMKG 的调查中，我们首先给出了 MMKG 的定义，然后是多模态任务和技术的初步介绍。然后，我们分别系统地回顾了 MMKG 的构建和应用所面临的挑战、进展和机遇，并详细分析了不同解决方案的优缺点。

Assessing Privacy Risks from Feature Vector Reconstruction Attacks
Authors Emily Wenger, Francesca Falzon, Josephine Passananti, Haitao Zheng, Ben Y. Zhao
在用于面部识别的深度神经网络中，特征向量是捕捉给定面部独特特征的数值表示。虽然已知可以通过特征重建来恢复原始面部的一个版本，但我们对这些攻击产生的端到端隐私风险缺乏了解。在这项工作中，我们通过开发有意义地捕捉重建人脸图像威胁的指标来解决这个缺点。通过端到端的实验和用户研究，我们表明重建的面部图像能够以最坏的速度被商业面部识别系统和人类重新识别，比随机基线高四倍。

Towards Adversarially Robust Deepfake Detection: An Ensemble Approach
Authors Ashish Hooda, Neal Mangaokar, Ryan Feng, Kassem Fawaz, Somesh Jha, Atul Prakash
检测 deepfake 是一个重要问题，但最近的工作表明，基于 DNN 的 deepfake 检测器对于对抗性 deepfake 很脆弱，其中对手会为 deepfake 添加难以察觉的扰动以逃避检测。在这项工作中，我们展示了对检测策略的修改，其中我们用精心选择的集成替换单个分类器，其中集成中每个模型的输入变换会产生成对正交梯度，可以显着提高超出实际解决方案的鲁棒性的对抗性训练。我们提出的理论结果表明，这种正交梯度可以通过减少对抗性 deepfakes 所在的输入子空间的维度来帮助挫败一阶对手。我们通过实例化和评估用于对抗性 deepfake 检测的此类正交集成的随机版本来凭经验验证结果，并发现与针对对抗性 deepfake 的最先进的 deepfake 检测器相比，这些随机集成作为 deepfake 检测器表现出显着更高的鲁棒性，即使是那些使用强

Vehicle and License Plate Recognition with Novel Dataset for Toll Collection
Authors Muhammad Usama, Hafeez Anwar, Muhammad Muaz Shahid, Abbas Anwar, Saeed Anwar, Helmuth Hlavacs
我们提出了一个自动收费框架，包括车辆类型识别、车牌定位和读取三个步骤。然而，由于几个因素导致的图像变化，这三个步骤中的每一个都变得不平凡。车头传统的车头装饰，导致同类型车之间存在差异。由于严重的背景杂乱和部分遮挡，这些装饰使车牌定位和识别变得困难。同样，在大多数车辆上，特别是卡车上，车牌的位置并不一致。最后，对于车牌阅读，变化是由不统一的字体样式、大小和部分遮挡的字母和数字引起的。我们提出的框架利用了主干深度学习架构的数据可用性和性能评估。我们收集了一个新的数据集 emph Diverse Vehicle and License Plates Dataset DVLPD ，由属于六种车辆类型的 10k 图像组成。然后针对车辆类型、车牌及其字符和数字手动注释每个图像。对于这三个任务中的每一个，我们都会评估 You Only Look Once YOLO v2、YOLOv3、YOLOv4 和 FasterRCNN。对于 Raspberry Pi 上的实时实现，我们评估了名为 Tiny YOLOv3 和 Tiny YOLOv4 的更轻量级的 YOLO 版本。 YOLOv4实现了车辆类型识别98.8、车牌检测98.5和车牌读取98.3的最佳平均平均精度mAP 0.5，而其更轻的版本，即Tiny YOLOv4获得了97.1、97.4和93.7的mAP分别用于车型识别、车牌检测和车牌读取。

Artemis: Articulated Neural Pets with Appearance and Motion synthesis
Authors Haimin Luo, Teng Xu, Yuheng Jiang, Chenglin Zhou, QIwei Qiu, Yingliang Zhang, Wei Yang, Lan Xu, Jingyi Yu
我们人类正在进入一个虚拟时代，当然也希望将动物带到虚拟世界中作为伴侣。然而，计算机生成的 CGI 毛茸茸动物受到繁琐的离线渲染的限制，更不用说交互式运动控制了。在本文中，我们介绍了 ARTEMIS，这是一种新颖的神经建模和渲染管道，用于生成具有 appEarance 和运动合成的 ARTiculated 神经宠物。我们的 ARTEMIS 支持交互式运动控制、实时动画和毛茸茸动物的照片逼真渲染。 ARTEMIS 的核心是神经生成的 NGI 动物引擎，它采用基于八叉树的高效表示来进行动物动画和皮毛渲染。然后，动画就等同于基于体素级骨架的变形。我们进一步使用快速八叉树索引，一种高效的体积渲染方案来生成外观和密度特征图。最后，我们提出了一种新颖的着色网络，可以在新颖的姿势下生成外观和不透明度的高保真细节。对于 ARTEMIS 中的运动控制模块，我们将最先进的动物运动捕捉方法与神经特征控制方案相结合。我们引入了一种有效的优化方案来重建由多视图 RGB 和 Vicon 相机阵列捕获的真实动物的骨骼运动。我们将捕获的运动输入到神经字符控制方案中，以生成具有运动风格的抽象控制信号。我们进一步将 ARTEMIS 集成到支持 VR 耳机的现有引擎中，提供前所未有的身临其境的体验，用户可以通过生动的动作和照片般逼真的外观与各种虚拟动物亲密互动。

A Wasserstein GAN for Joint Learning of Inpainting and its Spatial Optimisation
Authors Pascal Peter
经典的图像修复是一种重建缺失图像部分的恢复方法。然而，精心挑选的已知像素掩码可以产生高质量的修复，也可以作为稀疏图像表示。这个具有挑战性的空间优化问题对于压缩等实际应用至关重要。到目前为止，它几乎完全由基于模型的方法解决。神经网络的首次尝试似乎很有希望，但针对特定的修复操作员量身定制或需要后处理。为了解决这个问题，我们提出了第一个用于空间修复数据优化的生成对抗网络。与以前的方法相比，它允许联合训练修复生成器和相应的掩码优化网络。通过 Wasserstein 距离，我们确保我们的修复结果准确地反映了自然图像的统计数据。

Unsupervised HDR Imaging: What Can Be Learned from a Single 8-bit Video?
Authors Francesco Banterle, Demetris Marnerides, Kurt Debattista, Thomas Bashford Rogers
最近，基于深度学习的逆色调映射标准动态范围 SDR 图像以获得高动态范围 HDR 图像的方法变得非常流行。这些方法在细节和动态范围方面都令人信服地填充了暴露区域。通常，这些方法要有效，需要从大型数据集中学习并将这些知识转移到网络权重中。在这项工作中，我们从一个完全不同的角度来解决这个问题。我们可以从单个 SDR 视频中学到什么通过所提出的零镜头方法，我们表明，在许多情况下，单个 SDR 视频足以生成质量相同或优于其他最先进技术的 HDR 视频

Dilated convolutional neural network-based deep reference picture generation for video compression
Authors Haoyue Tian, Pan Gao, Ran Wei, Manoranjan Paul
运动估计和运动补偿是视频编码中帧间预测不可缺少的部分。由于对象的运动矢量大多以分数像素为单位，原始参考图片可能无法准确地为运动补偿提供合适的参考。在本文中，我们提出了一种深度参考图片生成器，它可以创建与当前编码帧更相关的图片，从而进一步减少时间冗余并提高视频压缩效率。受卷积神经网络 CNN 最近进展的启发，本文提出使用扩张的 CNN 来构建生成器。此外，我们将生成的深度图片作为参考图片插入到 Versatile Video Coding VVC 中，并执行一组全面的实验来评估我们的网络在最新的 VVC 测试模型 VTM 上的有效性。

Entroformer: A Transformer-based Entropy Model for Learned Image Compression
Authors Yichen Qian, Ming Lin, Xiuyu Sun, Zhiyu Tan, Rong Jin
有损深度图像压缩的一个关键组成部分是熵模型，它预测编码和解码模块中量化潜在表示的概率分布。以前的工作在卷积神经网络上建立熵模型，这些网络在捕获全局依赖性方面效率低下。在这项工作中，我们提出了一种新的基于 Transformer 的熵模型，称为 Entroformer，以有效且高效地捕获概率分布估计中的长期依赖关系。与图像分类中的视觉转换器不同，Entroformer 针对图像压缩进行了高度优化，包括 top k 自注意力和菱形相对位置编码。同时，我们使用并行双向上下文模型进一步扩展了该架构，以加快解码过程。

Including Facial Expressions in Contextual Embeddings for Sign Language Generation
Authors Carla Viegas, Mert nan, Lorna Quandt, Malihe Alikhani
最先进的手语生成框架缺乏表达性和自然性，这是仅关注手动符号而忽略面部表情的情感、语法和语义功能的结果。这项工作的目的是通过基于面部表情来增强手语的语义表示。我们研究了对文本、光泽和面部表情之间的关系进行建模对标志生成系统性能的影响。特别是，我们提出了一种 Dual Encoder Transformer，能够通过捕获文本和符号光泽注释中的异同来生成手动符号和面部表情。我们首先在手语生成中使用面部动作单元，从而考虑到面部肌肉活动在表达手语强度方面的作用。

Give me a knee radiograph, I will tell you where the knee joint area is: a deep convolutional neural network adventure
Authors Shi Yan, Taghi Ramazanian, Elham Sagheb, Walter K. Kremers, Vipin Chaudhary, Michael Taunton, Hilal Maradit Kremers, Ahmad P. Tafti
膝关节疼痛无疑是最常见的肌肉骨骼症状，它会影响所有年龄段的生活质量、限制活动能力和功能。膝关节疼痛通过常规 X 线片进行临床评估，X 线图像的广泛采用及其低成本的可用性使它们成为评估膝关节疼痛和膝关节病变（如关节炎、创伤和运动损伤）的主要组成部分。然而，膝关节 X 线片的解读仍然是高度主观的，X 线片内的重叠结构和需要每天分析的大量图像，使得解读对于幼稚和有经验的从业者都具有挑战性。因此，需要实施一种人工智能策略来客观和自动地解读膝关节 X 光片，以便及时对异常 X 光片进行分类。目前的工作提出了一种准确有效的管道，用于在平面 X 光片中对膝关节区域进行自主检测、定位和分类，将 You Only Look Once YOLO v3 深度卷积神经网络与一个大型且完全注释的膝关节 X 光片数据集相结合。

The MeLa BitChute Dataset
Authors Milo Trujillo, Maur cio Gruppi, Cody Buntain, Benjamin D. Horne
在本文中，我们展示了来自社交视频托管平台 BitChute（YouTube 的常用替代品）在 2019 年 6 月至 2021 年 12 月的 2.5 年间来自 61K 频道的超过 300 万个视频的近乎完整的数据集。此外，我们还包含各种视频级元数据，包括评论、频道描述和每个视频的观看次数。

Optimal Transport for Super Resolution Applied to Astronomy Imaging
Authors Michael Rawson, Jakob Hultgren
由于物理定律限制了可能的成像分辨率，超分辨率是光学中的重要工具，尤其是在星际尺度上。我们建议对超分辨率应用使用最优传输和熵。我们证明了当稀疏性已知且噪声或失真足够小时，重建是准确的。我们证明了优化器对噪声和扰动是稳定和鲁棒的。

Domain Adversarial Training: A Game Perspective
Authors David Acuna, Marc T Law, Guojun Zhang, Sanja Fidler
领域适应的主要工作重点是使用领域对抗训练来学习不变表示。在本文中，我们从博弈论的角度解释了这种方法。将域对抗训练中的最优解定义为局部纳什均衡，我们表明域对抗训练中的梯度下降可能违反优化器的渐近收敛保证，通常会阻碍传输性能。我们的分析导致我们用高阶 ODE 求解器（即 Runge Kutta ）替换梯度下降，为此我们推导出渐近收敛保证。这一系列优化器明显更稳定，并允许更积极的学习率，当用作标准优化器的替代品时，可带来高性能收益。我们的实验表明，结合最先进的领域对抗方法，我们以不到一半的训练迭代实现了高达 3.5 的改进。

Dynamic Background Subtraction by Generative Neural Networks
Authors Fateme Bahri, Nilanjan Ray
背景减法是计算机视觉中的一项重要任务，也是许多现实世界应用程序的重要步骤。背景减法方法的挑战之一是动态背景，它在背景的某些部分构成随机运动。在本文中，我们提出了一种新的背景减除方法，称为 DBSGen，它使用两个生成神经网络，一个用于动态运动去除，另一个用于背景生成。最后，通过基于动态熵图的像素级距离阈值获得前景运动对象。所提出的方法具有一个统一的框架，可以以端到端和无监督的方式进行优化。该方法的性能是在动态背景序列上评估的，它优于大多数最先进的方法。

Mining the manifolds of deep generative models for multiple data-consistent solutions of ill-posed tomographic imaging problems
Authors Sayantan Bhadra, Umberto Villa, Mark A. Anastasio
断层成像通常是一个病态的逆问题。通常，从断层扫描测量中获得所寻求对象的单个正则化图像估计。但是，可能有多个对象都与相同的测量数据一致。生成这种替代解决方案的能力很重要，因为它可以对成像系统进行新的评估。原则上，这可以通过后验抽样方法来实现。近年来，深度神经网络已被用于后验采样，并取得了可喜的成果。然而，此类方法尚未用于大规模断层成像应用。另一方面，经验采样方法对于大规模成像系统在计算上可能是可行的，并且能够对实际应用进行不确定性量化。经验抽样涉及在随机优化框架内解决正则化逆问题，以获得替代数据一致的解决方案。在这项工作中，我们提出了一种新的经验采样方法，该方法可以计算与获取的相同测量数据一致的层析逆问题的多个解。该方法通过重复解决基于样式的生成对抗网络 StyleGAN 的潜在空间中的优化问题来运行，并受到为超分辨率任务开发的通过潜在空间探索 PULSE 方法进行照片上采样的启发。所提出的方法通过涉及两种程式化断层扫描成像模式的数值研究进行了演示和分析。

Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks
Authors Nan Wu, Stanis aw Jastrz bski, Kyunghyun Cho, Krzysztof J. Geras
我们假设由于多模态深度神经网络中学习的贪心性质，这些模型往往只依赖一种模态，而对其他模态的拟合不足。正如我们根据经验观察到的那样，这种行为是违反直觉的，并且会损害模型的泛化能力。为了估计模型对每种模态的依赖性，我们计算了当模型除了另一种模态之外还可以访问它时的准确性增益。我们将此增益称为条件利用率。在实验中，我们始终观察到模式之间、跨多个任务和架构的条件利用率不平衡。由于在训练期间无法有效计算条件利用率，我们根据模型从每种模态中学习的速度为其引入一个代理，我们将其称为条件学习速度。我们提出了一种算法来平衡训练期间模态之间的条件学习速度，并证明它确实解决了贪婪学习的问题。

Motion Puzzle: Arbitrary Motion Style Transfer by Body Part
Authors Deok Kyeong Jang, Soomin Park, Sung Hee Lee
本文介绍了 Motion Puzzle，这是一种新颖的运动风格传输网络，它在几个重要方面推进了现有技术。 Motion Puzzle 是第一个可以控制单个身体部位的运动风格的，允许进行局部风格编辑并显着增加风格化运动的范围。为了保持人体的运动学结构，我们的框架从不同身体部位的多种风格动作中提取风格特征，并将它们局部转移到目标身体部位。另一个主要优点是，它可以通过集成自适应实例归一化和注意力模块，同时保持骨架拓扑结构，从而传递运动风格的全局和局部特征。因此，它可以捕捉动态运动表现出的风格，例如拍打和交错，明显优于以前的工作。此外，我们的框架允许在没有带有风格标签或运动配对的数据集的情况下进行任意运动风格转移，从而使许多公开可用的运动数据集可用于训练。我们的框架可以很容易地与运动生成框架集成以创建许多应用程序，例如实时运动传输。

Towards a Guideline for Evaluation Metrics in Medical Image Segmentation
Authors Dominik M ller, I aki Soto Rey, Frank Kramer
在过去的十年中，人工智能的研究随着深度学习模型的快速发展，尤其是在医学图像分割领域。各种研究表明，这些模型具有强大的预测能力，并取得了与临床医生相似的结果。然而，最近的研究表明，图像分割研究中的评估缺乏可靠的模型性能评估，并且由于不正确的度量实现或使用而显示出统计偏差。因此，这项工作为以下指标提供了概述和解释指南.

A Deep Learning Approach for Digital ColorReconstruction of Lenticular Films
Authors Stefano D Aronco, Giorgio Trumpy, David Pfluger, Jan Dirk Wegner
我们提出了第一个对文物具有鲁棒性的历史透镜胶片的准确数字化和色彩重建过程。透镜胶片出现在 1920 年代，是最早允许捕捉动态全彩色信息的技术之一。该技术利用 RGB 滤光片和压印在胶片表面的圆柱形微透镜，在图像的水平空间维度上对颜色进行编码。为了投影图片，使用适当的模拟设备反转编码过程。在这项工作中，我们引入了一个自动化的全数字管道来处理透镜胶片的扫描并对图像进行着色。我们的方法将深度学习与基于模型的方法相结合，以最大限度地提高性能，同时确保重建的彩色图像与编码的颜色信息真实匹配。我们的模型采用不同的策略来实现有效的颜色重建，特别是我使用数据增强来创建一个强大的微透镜分割网络，ii 我们拟合微透镜光栅预测以获得精确的矢量微透镜定位，iii 我们训练一个着色网络预测插值系数以获得真实的着色。我们在透镜胶片数据集上验证了所提出的方法，并将其与其他方法进行了比较。由于没有彩色的groundtruth可作为参考，我们进行了用户研究，以主观方式验证我们的方法。

A Plug-and-Play Approach to Multiparametric Quantitative MRI: Image Reconstruction using Pre-Trained Deep Denoisers
Authors Ketan Fatania, Carolin M. Pirkl, Marion I. Menzel, Peter Hall, Mohammad Golbabaee
当前用于磁共振指纹识别 MRF 的时空深度学习方法构建了针对用于快速压缩采集的特定 k 空间子采样模式定制的伪影去除模型。当在深度学习模型的训练期间采集过程未知和/或在测试期间发生变化时，这可能没有用。本文提出了一种迭代深度学习即插即用 MRF 重建方法，该方法适用于前向采集过程。时空图像先验是由图像去噪器（即卷积神经网络 CNN）学习的，经过训练可以从数据中去除通用高斯白噪声，而不是特定的子采样伪影。然后将此 CNN 降噪器用作迭代重建算法中的数据驱动收缩算子。然后在具有不同子采样模式的两个模拟采集过程上测试具有相同降噪器模型的该算法。结果显示了针对采集方案和组织定量生物特性的准确映射的一致去混叠性能。

HNF-Netv2 for Brain Tumor Segmentation using multi-modal MR Imaging
Authors Haozhe Jia, Chao Bai, Weidong Cai, Heng Huang, Yong Xia
在我们之前的工作中，即 HNF Net，高分辨率特征表示和轻量级非局部自注意力机制被用于使用多模态 MR 成像进行脑肿瘤分割。在本文中，我们通过添加尺度间和尺度内语义辨别增强块将我们的 HNF Net 扩展到 HNF Netv2，以进一步利用获得的高分辨率特征的全局语义辨别。我们在多模态脑肿瘤分割挑战 BraTS 2021 数据集上训练和评估了我们的 HNF Netv2。测试集上的结果表明，我们的 HNF Netv2 的平均 Dice 得分分别为 0.878514、0.872985 和 0.924919，增强肿瘤、肿瘤核心和整个肿瘤的 Hausdorff 距离 95 分别为 8.9184、16.2530 和 4.4895，分别。

On Real-time Image Reconstruction with Neural Networks for MRI-guided Radiotherapy
Authors David E. J. Waddington, Nicholas Hindley, Neha Koonjoo, Christopher Chiu, Tess Reynolds, Paul Z. Y. Liu, Bo Zhu, Danyal Bhutto, Chiara Paganelli, Paul J. Keall, Matthew S. Rosen
动态调整辐射束以实时跟踪肿瘤运动的 MRI 引导技术将导致更准确的癌症治疗并减少附带的健康组织损伤。重建欠采样 MR 数据的黄金标准是压缩感知 CS，它的计算速度很慢，并且限制了图像可用于实时适应的速率。在这里，我们展示了通过流形逼近 AUTOMAP 自动变换的使用，这是一种将原始 MR 信号映射到目标图像域的通用框架，以从欠采样的径向 k 空间数据中快速重建图像。 AUTOMAP 神经网络经过训练，可根据来自 ImageNet 的肺癌患者数据和通用图像，从黄金角度径向采集（运动敏感成像的基准）重建图像。随后使用源自 YouTube 8M 数据集中视频的运动编码 k 空间数据增强了模型训练，以鼓励运动稳健重建。我们发现 AUTOMAP 重建的径向 k 空间具有与 CS 相当的精度，但在对回顾性获得的肺癌患者数据进行初始微调后，处理时间要短得多。使用虚拟动态肺肿瘤模型对运动训练模型的验证表明，从 YouTube 学习到的广义运动特性可以提高目标跟踪精度。我们的工作表明，AUTOMAP 可以实现径向数据的实时、准确重建。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com