【AI视野·今日CV 计算机视觉论文速览第283期】Thu, 4 Jan 2024_lore: logical location regression network for tabl-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/135446632

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 4 Jan 2024
Totally 85 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry
Authors Weirong Chen, Le Chen, Rui Wang, Marc Pollefeys
视觉里程计根据视觉输入估计移动摄像机的运动。现有方法主要关注两个视点跟踪，通常忽略图像序列中丰富的时间上下文，从而忽略全局运动模式并且不提供对完整轨迹可靠性的评估。这些缺点阻碍了在有遮挡、动态对象和低纹理区域的场景中的性能。为了应对这些挑战，我们推出了长期有效的任意点跟踪 LEAP 模块。 LEAP 创新地将视觉、轨道间和时间线索与精心选择的锚点相结合，以进行动态轨道估计。此外，LEAP 的时间概率公式将分布更新集成到可学习的迭代细化模块中，以推理逐点不确定性。基于这些特征，我们开发了 LEAP VO，这是一个强大的视觉里程计系统，擅长处理遮挡和动态场景。我们的正念集成通过采用长期点跟踪作为前端展示了一种新颖的实践。

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
Authors Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
我们提出了一个框架，用于生成全身逼真的化身，该化身根据二元交互的对话动态进行手势。给定语音音频，我们输出一个人多种可能的手势运动，包括面部、身体和手。我们方法背后的关键是将矢量量化的样本多样性的优势与通过扩散获得的高频细节相结合，以生成更具动态性、表现力的运动。我们使用高度逼真的化身来可视化生成的运动，这些化身可以表达手势中的关键细微差别，例如手势。冷笑和傻笑。为了促进这方面的研究，我们引入了第一个多视图会话数据集，它允许进行真实感重建。实验表明，我们的模型可以生成适当且多样化的手势，优于扩散方法和仅 VQ 方法。此外，我们的感知评估强调了照片写实主义与网格在准确评估对话手势中微妙运动细节方面的重要性。

Step length measurement in the wild using FMCW radar
Authors Parthipan Siva, Alexander Wong, Patricia Hewston, George Ioannidis, Dr. Jonathan Adachi, Dr. Alexander Rabinovich, Andrea Lee, Alexandra Papaioannou
随着人口老龄化，许多辅助和监测技术正在开发中，以使老年人能够就地养老。为了促进就地老龄化，预测跌倒、住院等风险因素并提供早期干预措施非常重要。用于风险预测的环境监测的大部分工作都集中在步态速度分析上，利用雷达等隐私保护传感器。尽管有令人信服的证据表明，除了步态速度之外，监测步长对于预测风险也至关重要，但基于雷达的方法尚未探索在家中测量步长的方法。此外，使用雷达进行步长测量的实验室实验仅限于很少有健康受试者的概念验证研究。为了解决这一差距，提出了一种基于雷达的家用步长测量系统，该系统基于使用雷达点云的检测和跟踪，然后对躯干进行多普勒速度分析，以获得家中的步长。该方法在临床环境中进行了评估，涉及 35 名体弱的老年人，以确定其有效性。此外，该方法还在人们家中进行了评估，有 21 名体弱的老年人参与了临床评估。将所提出的基于雷达的步长测量方法与黄金标准 Zeno Walkway 步态分析系统进行比较，显示临床环境中存在 4.5 厘米 8.3 的误差。此外，它在不受控制的家庭环境中表现出出色的可靠性 ICC 2,k 0.91、95 CI 0.82 至 0.96。

A Vision Check-up for Language Models
Authors Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
学习对字符串之间的关系进行建模可以教会大型语言模型法学硕士关于视觉世界的知识我们系统地评估法学硕士生成和识别各种日益复杂的视觉概念的能力，然后演示如何使用以下模型来训练初步的视觉表示学习系统文本。由于语言模型缺乏以像素的形式消费或输出视觉信息的能力，因此我们在研究中使用代码来表示图像。尽管 LLM 生成的图像看起来不像自然图像，但图像生成的结果以及模型纠正这些生成图像的能力表明，字符串的精确建模可以向语言模型传授有关视觉世界的许多方面的知识。

Synthetic dataset of ID and Travel Document
Authors Carlos Boned, Maxime Talarmain, Nabil Ghanmi, Guillaume Chiron, Sanket Biswas, Ahmad Montaser Awal, Oriol Ramos Terrades
本文提出了一个新的身份证件和旅行证件综合数据集，称为 SIDTD。创建 SIDTD 数据集是为了帮助训练和评估伪造身份证件检测系统。由于身份证件包含个人信息，而真实证件的公共数据集无法发布，因此这样的数据集已成为必需。此外，与合法文件相比，伪造文件非常稀有，而且伪造文件的生成方式因欺诈者而异，从而导致一类高度的内部变异性。在本文中，我们在此数据集上训练了最先进的模型，并将它们与更大但私有的数据集中实现的性能进行比较。

Frequency Domain Modality-invariant Feature Learning for Visible-infrared Person Re-Identification
Authors Yulin Li, Tianzhu Zhang, Yongdong Zhang
由于可见光和红外图像之间存在显着的跨模态差异，可见红外人员重新识别 VI ReID 具有挑战性。虽然现有方法侧重于设计复杂的网络架构或使用度量学习约束来学习模态不变特征，但它们经常忽略图像的哪个特定组件导致模态差异问题。在本文中，我们首先揭示了可见光和红外图像的幅度分量的差异是导致模态差异的主要因素，并进一步提出了一种新颖的频域模态不变特征学习框架FDMNet，以从频域角度减少模态差异。我们的框架引入了两个新颖的模块，即实例自适应幅度滤波器 IAF 模块和短语保留归一化 PPNorm 模块，以增强模态不变幅度分量并抑制图像和特征级别的模态特定分量。

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
Authors David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
大多数现有视频传播模型 VDM 仅限于文本条件。因此，他们通常缺乏对生成视频的视觉外观和几何结构的控制。这项工作提出了 Moonshot，一种新的视频生成模型，它同时以图像和文本的多模态输入为条件。该模型建立在一个称为多模态视频块 MVB 的核心模块上，该模块由用于表示视频特征的传统时空层和用于处理图像和文本输入以进行外观调节的解耦交叉注意层组成。此外，我们精心设计了模型架构，使其可以选择性地与预先训练的图像 ControlNet 模块集成以实现几何视觉条件，而不需要与之前的方法相比额外的训练开销。实验表明，凭借多功能的多模式调节机制，与现有模型相比，Moonshot 在视觉质量和时间一致性方面表现出显着改善。此外，该模型可以轻松地重新用于各种生成应用，例如个性化视频生成、图像动画和视频编辑，揭示了其作为可控视频生成的基本架构的潜力。

Detours for Navigating Instructional Videos
Authors Kumar Ashutosh, Zihui Xue, Tushar Nagarajan, Kristen Grauman
我们介绍了用于导航教学视频的视频绕行问题。给定源视频和自然语言查询，要求以某种方式更改视频的当前执行路径，目标是找到满足所请求更改的相关绕行视频。为了应对这一挑战，我们提出了 VidDetours，这是一种新颖的视频语言方法，它学习如何从如何使用视频和文本条件查询的大型存储库中检索目标时间片段。此外，我们设计了一种基于语言的管道，利用如何视频旁白文本来创建弱监督训练数据。我们展示了我们的想法应用于如何烹饪视频领域，用户可以绕过当前的食谱，找到使用替代原料、工具和技术的步骤。

aMUSEd: An Open MUSE Reproduction
Authors Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
我们提出了 aMUSEd，一个开源的、轻量级的蒙版图像模型 MIM，用于基于 MUSE 的文本到图像生成。 aMUSEd 具有 MUSE 10% 的参数，专注于快速图像生成。我们认为，与潜在扩散（文本到图像生成的流行方法）相比，MIM 尚待探索。与潜在扩散相比，MIM 需要更少的推理步骤并且更具可解释性。此外，MIM 可以进行微调，以仅使用单个图像来学习其他样式。我们希望通过展示 MIM 在大规模文本到图像生成方面的有效性并发布可重现的训练代码来鼓励对 MIM 的进一步探索。

Understanding the Detrimental Class-level Effects of Data Augmentation
Authors Polina Kirichenko, Mark Ibrahim, Randall Balestriero, Diane Bouchacourt, Ramakrishna Vedantam, Hamed Firooz, Andrew Gordon Wilson
数据增强 DA 对不变性进行编码，并提供对图像分类任务中的模型性能至关重要的隐式正则化。然而，虽然 DA 提高了平均准确率，但最近的研究表明，其影响可能高度依赖于类别，实现最佳平均准确率的代价是在 ImageNet 上严重损害单个类别的准确率高达 20。由于对这些影响的了解有限，在解决班级准确率下降问题方面进展甚微。在这项工作中，我们提出了一个框架来理解 DA 如何与班级学习动态相互作用。在 ImageNet 上使用更高质量的多标签注释，我们系统地对受影响的类别进行分类，发现大多数本质上是不明确的、同时发生的或涉及细粒度的区别，而 DA 控制模型对密切相关的类别之一的偏见。虽然之前报告的许多性能下降都是通过多标签注释来解释的，但我们对类混淆的分析揭示了准确性下降的其他原因。

FullLoRA-AT: Efficiently Boosting the Robustness of Pretrained Vision Transformers
Authors Zheng Yuan, Jie Zhang, Shiguang Shan
近年来，Vision Transformer ViT模型逐渐成为各种计算机视觉任务中的主流，模型的鲁棒性越来越受到关注。然而，现有的大型模型在训练过程中往往优先考虑性能，可能忽视鲁棒性，这可能会导致严重的安全问题。在本文中，我们提出了一个新的挑战，探索如何使用少量附加参数进行对抗性微调，以快速有效地增强标准训练模型的对抗性鲁棒性。

Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement
Authors Zheng Yuan, Jie Zhang, Yude Wang, Shiguang Shan, Xilin Chen
近年来，注意力机制已被证明在各种视觉任务中有效。在语义分割任务中，注意力机制被应用于多种方法中，包括以卷积神经网络CNN和Vision Transformer ViT作为主干的情况。然而，我们观察到注意力机制很容易受到基于补丁的对抗性攻击。通过对有效感受野的分析，我们将其归因于全局注意力带来的宽感受野可能导致对抗性斑块的传播。为了解决这个问题，在本文中，我们提出了一种鲁棒注意力机制RAM来提高语义分割模型的鲁棒性，这可以显着缓解基于补丁的攻击的漏洞。与vallina注意力机制相比，RAM引入了两个新颖的模块，称为最大注意力抑制和随机注意力丢失，这两个模块都旨在细化注意力矩阵并限制单个对抗性补丁对其他位置语义分割结果的影响。

Few-shot Image Generation via Information Transfer from the Built Geodesic Surface
Authors Yuexing Han, Liheng Ruan, Bing Wang
大多数使用有限数据训练的生成模型生成的图像通常在保真度和/或多样性方面存在缺陷。解决该限制的一种有效解决方案是少镜头生成模型自适应。然而，这种方法通常依赖于大规模的预训练模型，作为源域，以促进信息传输到目标域。在本文中，我们提出了一种称为从构建测地表面信息传输 ITBGS 的方法，该方法包含两个模块：测地表面特征增强 FAGS 插值和正则化 I R 。使用 FAGS 模块，通过将训练数据集中的图像特征投影到预形状空间中来创建伪源域，随后在测地线表面上生成新特征。因此，在使用 FAGS 训练生成模型期间，自适应过程不需要预先训练的模型。引入IR模块分别用于监督插值图像并规范它们的相对距离，以进一步提高生成图像的质量。

Few-shot Adaptation of Multi-modal Foundation Models: A Survey
Authors Fan Liu, Tianshu Zhang, Wenwen Dai, Wenwen Cai Xiaocong Zhou, Delong Chen
多模态视觉语言模型（例如 CLIP）正在取代传统的监督预训练模型（例如基于 ImageNet 的预训练），成为新一代视觉基础模型。这些模型具有从数十亿互联网图像文本对中学习的强大且一致的语义表示，并且可以以零样本的方式应用于各种下游任务。然而，在医学成像和遥感等一些细粒度领域，多模态基础模型的性能往往不尽如人意。因此，许多研究人员开始探索这些模型的少数镜头适应方法，逐渐衍生出三种主要技术方法：1基于提示的方法、2基于适配器的方法和3基于外部知识的方法。然而，这个快速发展的领域已经产生了大量的成果，但没有进行全面的调查来系统地组织研究进展。因此，在本次调查中，我们介绍和分析了多模态模型的几种镜头自适应方法的研究进展，总结了常用的数据集和实验设置，并比较了不同方法的结果。此外，由于现有方法缺乏可靠的理论支持，我们推导了多模态模型的少数镜头自适应泛化误差界。该定理揭示了多模态基础模型的泛化误差受到域间隙、模型容量和样本大小三个因素的约束。

Learning Keypoints for Robotic Cloth Manipulation using Synthetic Data
Authors Thomas Lips, Victor Louis De Gusseme, Francis wyffels
辅助机器人应该能够清洗、折叠或熨烫衣服。然而，由于衣服的多样性、可变形性和自遮挡性，创建用于布料操作的通用机器人系统具有挑战性。合成数据是提高泛化能力的一个有前途的方向，尽管它的可用性常常受到模拟与真实差距的限制。为了推进合成数据在布料操作中的使用并实现机器人折叠等任务，我们提出了一个合成数据管道来训练几乎扁平的布料物品的关键点检测器。为了测试其性能，我们还收集了真实世界的数据集。我们训练了 T 恤、毛巾和短裤的检测器，获得了 64.3 的平均精度。对现实世界数据的微调将性能提高到 74.2 。通过讨论关键点检测器的各种故障模式以及比较获取布料网格和材料的不同方法，提供了额外的见解。我们还量化了剩余的模拟与实际差距，并认为需要进一步提高布料资产的保真度才能进一步缩小这一差距。

STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment Fusion
Authors Wei Yao, Hongwen Zhang, Yunlian Sun, Jinhui Tang
近年来，从单目图像中恢复 3D 人体网格得到了显着发展。然而，现有模型通常忽略空间和时间信息，这可能导致网格和图像错位以及时间不连续。为此，我们提出了一种新颖的时空对齐融合 STAF 模型。作为基于视频的模型，它通过基于注意力的时间相干融合模块 TCFM 利用人体运动的相干线索。至于空间网格对齐证据，我们通过特征图上的预测网格投影来提取细粒度的局部信息。基于空间特征，我们进一步引入多级相邻空间对齐融合模块SAFM来增强目标帧的特征表示。除了上述之外，我们还提出了平均池化模块 APM，使模型能够关注整个输入序列而不仅仅是目标帧。该方法可以显着提高视频恢复结果的平滑度。在 3DPW、MPII3D 和 H36M 上的大量实验证明了 STAF 的优越性。我们在精度和平滑度之间实现了最先进的权衡。

Lightweight Adaptive Feature De-drifting for Compressed Image Classification
Authors Long Peng, Yang Cao, Yuejin Sun, Yang Wang
JPEG 是一种广泛使用的压缩方案，可有效减少传输图像的体积。由于信息丢失，块之间出现伪影，这不仅影响图像质量，而且还会在特征漂移方面损害后续的高级任务。在处理压缩图像时，尤其是在移动设备上，在高质量图像上训练的高级视觉模型将遭受性能下降。已经提出了许多基于学习的 JPEG 伪影去除方法来处理视觉伪影。然而，由于以下原因，使用这些 JPEG 伪影去除方法作为压缩图像分类的预处理并不是理想的选择 1. 这些方法是为人类视觉而不是高级视觉模型设计的 2. 这些方法不够高效用作资源受限设备上的预处理。为了解决这些问题，本文提出了一种新颖的轻量级 AFD 模块，以提高预训练图像分类模型在面