【AI视野·今日CV 计算机视觉论文速览第281期】Tue, 2 Jan 2024_efficient multi-scale network with learnable discr-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/135419857

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 2 Jan 2024
Totally 95 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Refining Pre-Trained Motion Models
Authors Xinglong Sun, Adam W. Harley, Leonidas J. Guibas
考虑到在视频中手动注释运动的困难，当前最好的运动估计方法是使用合成数据进行训练的，因此由于训练测试间隙而有些困难。自监督方法有望直接在真实视频上进行训练，但通常表现较差。这些包括用扭曲误差训练的方法，即颜色恒定性与平滑度项相结合，以及鼓励估计中的循环一致性的方法，即向后跟踪应产生与向前跟踪相反的轨迹。在这项工作中，我们接受了通过自我监督训练改进最先进的监督模型的挑战。我们发现，当初始化是监督权重时，大多数现有的自监督技术实际上使性能变得更糟而不是更好，这表明看到新数据的好处被训练信号中的噪声所掩盖。着眼于从现实世界的未标记视频中获取干净的训练信号，我们建议将标签制作和训练分为两个不同的阶段。在第一阶段，我们使用预先训练的模型来估计视频中的运动，然后选择可以验证循环一致性的运动估计子集。这会产生稀疏但准确的视频伪标签。在第二阶段，我们微调模型以重现这些输出，同时还在输入上应用增强。我们用简单的技术来补充这种引导方法，这些技术可以致密并重新平衡伪标签，确保我们不仅仅在简单的轨道上进行训练。

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
Authors Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
在视觉语言预训练的演变中，从短文本理解转向包含扩展文本上下文是关键。最近的自回归视觉语言模型（如 cite flamingo、palme）利用大型语言模型的长上下文功能，在少数镜头文本生成任务中表现出色，但在对齐任务中面临挑战。为了解决这一差距，我们将对比损失引入到文本生成模型中，提出了 COntrastive Streamlined MultimOdal 框架 ModelName ，策略性地将语言模型划分为专用的单模态文本处理和熟练的多模态数据处理组件。 ModelName 是我们的统一框架，融合了单模态和多模态元素，增强了涉及文本和视觉数据的任务的模型性能，同时显着减少了可学习的参数。然而，这些模型需要大量的长文本数据集，但高质量长文本视频数据集的可用性仍然有限。为了弥补这一差距，这项工作引入了 VideoDatasetName，这是一个首个具有全面字幕的交错视频文本数据集，标志着向前迈出了重要一步。为了展示其影响，我们说明了 VideoDatasetName 如何增强图像文本任务中的模型性能。凭借 34 个可学习参数并利用 72 个可用数据，我们的模型表现出比 OpenFlamingo 引用 openflamingo 显着的优越性。例如，在 4 个镜头的 flickr 字幕任务中，性能显着从 57.2 提高到 65。

Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera
Authors Jiye Lee, Hanbyul Joo
我们提出了一种基于两个智能手表和一个头戴式摄像头的轻量级且经济实惠的动作捕捉方法。与使用六个或更多专家级 IMU 设备的现有方法相比，我们的方法更具成本效益和方便。我们的方法可以让任何地方的每个人都可以使用可穿戴式动作捕捉，从而在不同的环境中实现 3D 全身动作捕捉。作为克服传感器输入极端稀疏性和模糊性的关键思想，我们集成了从头戴式摄像机获得的 6D 头部姿势以进行运动估计。为了能够在广阔的室内和室外场景中进行捕捉，我们提出了一种算法来跟踪和更新楼层变化以定义头部姿势，并结合基于多级 Transformer 的回归模块。我们还引入了利用自我中心图像的视觉线索的新颖策略，以进一步提高动作捕捉质量，同时减少歧义。

Deblurring 3D Gaussian Splatting
Authors Byeonghyeon Lee, Howoong Lee, Xiangyu Sun, Usman Ali, Eunbyung Park
辐射场的最新研究以其逼真的渲染质量为新颖的视图合成铺平了道路。然而，它们通常采用神经网络和体积渲染，训练成本高昂，并且由于渲染时间长而阻碍了它们在各种实时应用中的广泛使用。最近，基于 3D 高斯分布的方法被提出来对 3D 场景进行建模，并且在实时渲染图像的同时实现了卓越的视觉质量。然而，如果训练图像模糊，它的渲染质量会严重下降。由于镜头散焦、物体运动和相机抖动，通常会出现模糊现象，并且不可避免地会影响清晰的图像采集。之前的几项研究尝试使用神经场从模糊的输入图像中渲染出干净清晰的图像。然而，这些作品中的大多数仅针对基于体积渲染的神经辐射场而设计，并且不能直接适用于基于光栅化的 3D 高斯泼溅方法。因此，我们提出了一种新颖的实时去模糊框架，即使用小型多层感知器 MLP 来对 3D 高斯分布进行去模糊，该多层感知器 MLP 操纵每个 3D 高斯的协方差来对场景模糊度进行建模。虽然去模糊 3D Gaussian Splatting 仍然可以享受实时渲染，但它可以从模糊图像中重建精细而清晰的细节。在基准测试上进行了各种实验，结果揭示了我们的去模糊方法的有效性。

Rethinking RAFT for Efficient Optical Flow
Authors Navid Eslami, Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei
尽管基于深度学习的光流方法取得了重大进展，但准确估计大位移和重复模式仍然是一个挑战。这些算法中使用的局部特征和相似性搜索模式的局限性导致了这个问题。此外，一些现有方法存在运行时间慢和图形内存消耗过多的问题。为了解决这些问题，本文提出了一种基于 RAFT 框架的新方法。所提出的基于注意力的特征定位 AFL 方法结合了注意力机制来处理全局特征提取并解决重复模式。它引入了一个运算符，用于将像素与第二帧中的相应对应项进行匹配并分配准确的流量值。此外，提出了一种非晶查找算子ALO，通过减少搜索算子中的数据冗余并扩展相似性提取的搜索空间来提高收敛速度并提高RAFT处理大位移的能力。所提出的方法 Efficient RAFT Ef RAFT 与 RAFT 相比，在 Sintel 数据集上实现了 10 倍的显着改进，在 KITTI 数据集上实现了 5 倍的显着改进。值得注意的是，这些增强是在速度适度降低 33 倍和内存使用量仅增加 13 倍的情况下实现的。

Sharp-NeRF: Grid-based Fast Deblurring Neural Radiance Fields Using Sharpness Prior
Authors Byeonghyeon Lee, Howoong Lee, Usman Ali, Eunbyung Park
神经辐射场 NeRF 在基于神经渲染的新颖视图合成中表现出了卓越的性能。然而，当输入图像在不完美的条件下捕获时，例如照明不良、散焦模糊和镜头像差，NeRF 会遭受严重的视觉质量下降。特别是，当通常使用相机拍摄图像时，散焦模糊在图像中很常见。尽管最近很少有研究提出渲染相当高质量的清晰图像，但它们仍然面临许多关键挑战。特别是，这些方法采用了基于 NeRF 的多层感知器 MLP，这需要大量的计算时间。为了克服这些缺点，本文提出了一种新技术 Sharp NeRF，一种基于网格的 NeRF，可以在训练半小时内从输入的模糊图像中渲染出干净清晰的图像。为此，我们使用了几个基于网格的内核来精确建模场景的清晰度模糊度。计算像素的清晰度级别以学习空间变化的模糊内核。我们对由模糊图像组成的基准进行了实验，并评估了完整的参考和非参考指标。定性和定量结果表明，我们的方法以生动的色彩和精细的细节呈现了尖锐的新颖视图，并且其训练时间比以前的作品要快得多。

GLIMPSE: Generalized Local Imaging with MLPs
Authors AmirEhsan Khorashadizadeh, Valentin Debarnot, Tianlin Liu, Ivan Dokmani
深度学习是断层成像领域当前最先进的技术。一种常见的方法是将简单反演的结果（例如反投影）提供给卷积神经网络 CNN，然后由该网络计算重建。尽管分布测试数据的结果与训练数据相似，但稀疏视图数据的反投影会使奇点离域，因此这些方法需要较大的感受野才能表现良好。因此，它们过度拟合某些全局结构，从而导致分布外 OOD 样本的泛化能力较差。此外，它们的内存复杂性和训练时间尺度与图像分辨率不利，使得它们在实际临床分辨率下的应用不切实际，特别是在 3D 中，标准 U Net 在研究级 GPU 上训练时需要大量 140GB 内存和每轮 2600 秒1024x1024 图像。在本文中，我们介绍了 GLIMPSE，一种用于计算机断层扫描的局部处理神经网络，它通过仅将与像素邻域相关的测量值馈送到简单的 MLP 来重建像素值。虽然在分布测试数据上与 U Net 等成功的 CNN 取得了相当或更好的性能，但 GLIMPSE 在 OOD 样本上的表现明显优于它们，同时保持几乎独立于图像分辨率的内存占用，5GB 内存足以在 1024x1024 图像上进行训练。

Retrieval-Augmented Egocentric Video Captioning
Authors Jilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie
从第一人称视角的视频中理解人类行为提出了重大挑战。大多数先前的方法仅探索以自我为中心的视频的表示学习，而忽视了利用现有大规模第三人称视频的潜在好处。在本文中，1我们开发了 EgoInstructor，这是一种检索增强的多模态字幕模型，可自动检索语义相关的第三人称教学视频，以增强以自我为中心的视频的视频字幕。 2 为了训练跨视图检索模块，我们设计了一个自动管道，从不同的大规模自我中心和外中心数据集中发现自我外视频对。 3 我们使用一种新颖的 EgoExoNCE 损失来训练跨视图检索模块，该损失通过将自我中心和外中心视频特征与描述相似动作的共享文本特征对齐来拉近它们。 4 通过大量实验，我们的跨视图检索模块在七个基准测试中展示了卓越的性能。

Bracketing is All You Need: Unifying Image Restoration and Enhancement Tasks with Multi-Exposure Images
Authors Zhilu Zhang, Shuohao Zhang, Renlong Wu, Zifei Yan, Wangmeng Zuo
在弱光环境下获取内容清晰的高质量照片具有挑战性，但人们非常渴望。尽管使用连拍、双重曝光或多曝光图像的多图像处理方法在解决这个问题方面取得了重大进展，但它们通常只专注于特定的恢复或增强任务，不足以利用多图像。由于多重曝光图像在去噪、去模糊、高动态范围成像和超分辨率方面是互补的，我们建议在这项工作中利用包围摄影来统一恢复和增强任务。由于收集现实世界对的困难，我们建议一种解决方案，首先使用合成的配对数据预训练模型，然后将其适应现实世界的未标记图像。特别是，提出了时间调制循环网络TMRNet和自监督自适应方法。此外，我们构建了一个数据模拟管道来合成对并从 200 个夜间场景中收集现实世界图像。对两个数据集的实验表明，我们的方法比最先进的多图像处理方法表现得更好。

DiffMorph: Text-less Image Morphing with Diffusion Models
Authors Shounak Chatterjee
文本条件图像生成模型是人工智能图像合成的普遍用途，但在艺术家指导下直观地控制输出仍然具有挑战性。

Diffusion Models, Image Super-Resolution And Everything: A Survey
Authors Brian B. Moser, Arundhati S. Shanbhag, Federico Raue, Stanislav Frolov, Sebastian Palacio, Andreas Dengel
扩散模型 DM 代表了图像超分辨率 SR 的重大进步，使技术图像质量更符合人类偏好并扩展了 SR 应用。 DM 解决了以前方法的关键局限性，增强了 SR 图像的整体真实感和细节。然而，DM 面临色偏问题，其高计算成本需要高效的采样替代方案，这凸显了平衡计算效率和图像质量的挑战。这项调查概述了应用于图像 SR 的 DM，并提供了详细的分析，强调了该领域内的独特特征和方法，与该领域更广泛的现有评论不同。它提出了 DM 基础知识的统一视图，并探索了研究方向，包括替代输入域、调节策略、指导、腐败空间和零样本方法。

NightRain: Nighttime Video Deraining via Adaptive-Rain-Removal and Adaptive-Correction
Authors Beibei Lin, Yeying Jin, Wending Yan, Wei Ye, Yuan Yuan, Shunli Zhang, Robby Tan
由于缺乏现实世界的配对数据，现有的基于深度学习的夜间视频除雨方法依赖于合成数据。然而，现实世界的复杂性，特别是存在光效应和受噪声影响的低光区域，会产生显着的域间隙，阻碍综合训练模型正确消除雨纹，并导致过度饱和和颜色变化。受此启发，我们推出了 NightRain，一种新颖的夜间视频除雨方法，具有自适应除雨和自适应校正功能。我们的自适应除雨功能使用未标记的降雨视频，使我们的模型能够去除现实世界的降雨视频，特别是在受复杂光效果影响的区域。这个想法是让我们的模型根据置信度分数获得无雨区域。一旦获得无雨区域和输入中的相应区域，我们就可以获得基于区域的配对真实数据。这些配对数据用于使用师生框架来训练我们的模型，使模型能够从挑战性较小的区域到更具挑战性的区域迭代学习。我们的自适应校正旨在纠正模型预测中的错误，例如过度饱和和颜色偏移。这个想法是根据这些输入视频与其相应预测之间的差异或距离，从清晰的夜间输入训练视频中学习。我们的模型从这些差异中学习，迫使我们的模型纠正错误。通过大量的实验，我们的方法展示了最先进的性能。

BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation
Authors Libin Lan, Pengzhou Cai, Lu Jiang, Xiaojuan Liu, Yongmei Li, Yudong Zhang
准确的医学图像分割对于临床量化、疾病诊断、治疗计划和许多其他应用至关重要。基于卷积和基于变压器的 u 形架构都在各种医学图像分割任务中取得了巨大的成功。前者可以有效地学习图像的局部信息，同时需要卷积运算固有的更多图像特定的归纳偏差。后者可以使用自注意力有效地捕获不同特征尺度下的长程依赖关系，但随着序列长度的增加，它通常会遇到二次计算和内存需求的挑战。为了解决这个问题，通过将这两种范式的优点集成到精心设计的 u 形架构中，我们提出了一种混合但有效的 CNN Transformer 网络，名为 BRAU Net，用于精确的医学图像分割任务。具体来说，BRAU Net使用双层路由注意力作为核心构建块来设计我们的u形编码器解码器结构，其中编码器和解码器都是分层构造的，以便在降低计算复杂度的同时学习全局语义信息。此外，该网络通过结合采用卷积运算的通道空间注意力来重构跳跃连接，旨在最大限度地减少局部空间信息损失并放大多尺度特征的全局维度交互。对三个公共基准数据集的广泛实验表明，我们提出的方法超越了其他最先进的方法，包括几乎所有评估指标下的基线 BRAU Net。

Depth Map Denoising Network and Lightweight Fusion Network for Enhanced 3D Face Recognition
Authors Ruizhuo Xu, Ke Wang, Chao Deng, Mei Wang, Xi Chen, Wenhui Huang, Junlan Feng, Weihong Deng
随着消费者深度传感器的日益普及，3D人脸识别FR引起了越来越多的关注。然而，这些传感器获取的数据通常是粗糙且嘈杂的，使得它们无法直接使用。在本文中，我们介绍了一种基于去噪隐式图像函数 DIIF 的创新深度图去噪网络 DMDNet，以降低噪声并增强低质量 3D FR 的面部深度图像的质量。使用 DMDNet 生成干净的深度人脸后，我们进一步设计了一个强大的识别网络，称为轻量级深度和法线融合网络 LDNFNet，它结合了多分支融合块来学习不同模态（例如深度和法线图像）之间的独特且互补的特征。在四个不同的低质量数据库上进行的综合实验证明了我们提出的方法的有效性和鲁棒性。

Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven Body Controllable Attribute
Authors Chaoqun Gong, Yuqin Dai, Ronghui Li, Achun Bao, Jun Li, Jian Yang, Yachao Zhang, Xiu Li
直接从文本生成 3D 人体模型有助于减少角色建模的成本和时间。然而，由于特征耦合和真实 3D 人体头像数据集的稀缺，实现多属性可控且真实的 3D 人体头像生成仍然具有挑战性。为了解决这些问题，我们提出了 Text2Avatar，它可以根据耦合的文本提示生成逼真风格的 3D 头像。 Text2Avatar 利用离散码本作为中间特征来建立文本和头像之间的连接，从而能够解开特征。此外，为了缓解写实风格3D人体头像数据的稀缺性，我们利用预先训练的无条件3D人体头像生成模型来获取大量3D头像伪数据，这使得Text2Avatar能够实现写实风格生成。

Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning
Authors Kaibin Tian, Yanhua Cheng, Yi Liu, Xinglin Hou, Quan Chen, Han Li
近年来，基于CLIP的文本到视频检索方法得到了快速发展。进化的主要方向是利用更广泛的视觉和文本线索来实现对齐。具体来说，那些具有令人印象深刻的性能的方法通常会为句子单词视频帧交互设计一个重型融合块，而不考虑令人望而却步的计算复杂性。然而，这些方法在特征利用和检索效率方面并不是最佳的。为了解决这个问题，我们采用多粒度视觉特征学习，确保模型在训练阶段捕获从抽象到详细级别的视觉内容特征的全面性。为了更好地利用多粒度特征，我们在检索阶段设计了两阶段检索架构。该解决方案巧妙地平衡了检索内容的粗粒度和细粒度。此外，它还在检索效果和效率之间取得了和谐的平衡。具体来说，在训练阶段，我们设计了一个用于细粒度视频表示学习的无参数文本门控交互块 TIB，并嵌入了额外的皮尔逊约束来优化跨模态表示学习。在检索阶段，我们使用粗粒度视频表示来快速回忆前 k 个候选者，然后通过细粒度视频表示重新排序。对四个基准的广泛实验证明了效率和有效性。

Credible Teacher for Semi-Supervised Object Detection in Open Scene
Authors Jingyu Zhuang, Kuo Wang, Liang Lin, Guanbin Li
半监督目标检测 SSOD 通过利用未标记数据来提高检测性能，取得了巨大成功。然而，在开放场景半监督对象检测O SSOD 中，未标记的数据可能包含标记数据中未观察到的未知对象，这将增加模型对已知对象的预测的不确定性。这对于目前主要依靠自训练的方法是不利的，因为更多的不确定性导致伪标签的定位和分类精度较低。为此，我们提出了 Credible Teacher，一个端到端的框架。 Credible Teacher采用灵活标签的交互式教学机制，防止不确定的伪标签对模型的误导，并通过其他可信伪标签的引导逐步降低其不确定性。

1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation
Authors Zhuoyan Luo, Yicheng Xiao, Yong Liu, Yitong Wang, Yansong Tang, Xiu Li, Yujiu Yang
最近基于 Transformer 的模型由于其卓越的性能在参考视频对象分割 RVOS 任务中占据主导地位。大多数现有工作采用统一的 DETR 框架以查询实例的方式生成分段掩码。在这项工作中，我们整合了领先的 RVOS 模型的优势，建立了一个有效的范例。我们首先从 RVOS 模型获取二进制掩码序列。为了提高掩模的一致性和质量，我们提出了两阶段多模型融合策略。每个阶段根据框架设计和训练策略合理地集成RVOS模型，并利用不同的视频对象分割VOS模型通过对象传播机制增强掩模一致性。

PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning
Authors Xuntao Liu, Yuzhou Yang, Qichao Ying, Zhenxing Qian, Xinpeng Zhang, Sheng Li
欺骗性图像可以在几秒钟内通过社交网络服务共享，从而带来巨大风险。图像操纵定位 IML 领域的大规模网络已显着强调了篡改痕迹，例如边界伪影和高频信息。然而，它们容易进行图像后处理操作，这限制了现有方法的通用性和鲁棒性。我们提出了一种新颖的 Prompt IML 框架。我们观察到，人类倾向于根据语义和高频信息来辨别图像的真实性，受此启发，所提出的框架利用预先训练的视觉基础模型中丰富的语义知识来辅助 IML。我们是第一个专门针对 IML 任务设计利用视觉基础模型的框架。此外，我们设计了特征对齐和融合模块，将语义特征与高频特征进行对齐和融合，旨在从多个角度定位篡改区域。

From Covert Hiding to Visual Editing: Robust Generative Video Steganography
Authors Xueying Mao, Xiaoxiao Hu, Wanli Peng, Zhenliang Gan, Qichao Ying, Zhenxing Qian, Sheng Li, Xinpeng Zhang
传统的视频隐写术方法基于修改嵌入的隐蔽空间，而我们提出了一种创新方法，在视频编辑过程中将秘密消息嵌入到隐写术的语义特征中。尽管现有的传统视频隐写方法显示出一定水平的安全性和嵌入能力，但它们缺乏足够的鲁棒性来应对在线社交网络 OSN 中常见的失真。在本文中，我们介绍了一种端到端鲁棒的生成视频隐写网络RoGVS，它通过修改视频的语义特征以嵌入秘密消息来实现可视化编辑。我们采用换脸场景来展示视觉编辑效果。我们首先设计了一个秘密消息嵌入模块，将秘密消息自适应地隐藏到视频的语义特征中。

Geometry Depth Consistency in RGBD Relative Pose Estimation
Authors Sourav Kumar, Chiang Heng Chien, Benjamin Kimia
RGBD 相机的相对姿态估计在许多应用中至关重要。以前的方法要么依赖图像的 RGB 方面来估计姿势，因此在估计过程中没有充分利用深度，要么根据每个图像产生的 3D 点云来估计姿势，因此没有充分利用 RGB 信息。本文表明，如果从基于 RGB 的排序有序对应列表中假设一对对应，则剩余对应的空间仅限于嵌套在假设对应周围的相应曲线对，隐式捕获深度一致性。这个简单的几何深度约束 GDC 显着减少了潜在的匹配。实际上，这成为可能对应关系的过滤器，有助于减少异常值的数量，从而显着加快 RANSAC 速度。因此，相同的时间预算允许更多的 RANSAC 迭代，因此具有额外的鲁棒性和显着的加速。

Towards Improved Proxy-based Deep Metric Learning via Data-Augmented Domain Adaptation
Authors Li Ren, Chen Chen, Liqiang Wang, Kien Hua
深度度量学习 DML 在现代计算机视觉研究中发挥着重要作用，我们可以学习一组图像表示的距离度量。最近的 DML 技术利用代理与嵌入空间中相应的图像样本进行交互。然而，现有的基于代理的 DML 方法侧重于学习个体代理到样本的距离，而缺乏对样本和代理的整体分布的关注。在本文中，我们提出了一种新颖的基于代理的 DML 框架，该框架专注于对齐样本和代理分布，以提高基于代理的 DML 损失的效率。具体来说，我们提出了数据增强域适应 DADA 方法来适应样本组和代理之间的域间隙。据我们所知，我们是第一个利用域适应来提高基于代理的 DML 性能的公司。我们证明我们的方法可以轻松地插入到现有的基于代理的 DML 损失中。

GD^2-NeRF: Generative Detail Compensation via GAN and Diffusion for One-shot Generalizable Neural Radiance Fields
Authors Xiao Pan, Zongxin Yang, Shuai Bai, Yi Yang
在本文中，我们重点关注 One shot Novel View Synthesis O NVS 任务，该任务的目标是在每个场景仅给出一张参考图像的情况下合成照片般逼真的新颖视图。上一篇 One shot Generalized Neural Radiance Fields OG NeRF 方法以一种无需推理时间微调的方式解决了这一任务，但由于高度依赖于有限参考图像的仅编码器架构而遭受模糊问题。另一方面，最近基于扩散的图像到 3D 方法通过将预先训练的 2D 扩散模型提炼为 3D 表示，显示出生动可信的结果，但需要对每个场景进行繁琐的优化。针对这些问题，我们提出了 GD 2 NeRF，这是一种通过 GAN 和 Diffusion 的生成细节补偿框架，既无需对推理时间进行微调，又具有生动可信的细节。具体来说，遵循从粗到细的策略，GD 2 NeRF主要由One stage Parallel Pipeline OPP和3D一致性细节增强器Diff3DE组成。在粗略阶段，OPP首先将GAN模型有效地插入到现有的OG NeRF管道中，主要缓解从训练数据集中捕获的分布先验的模糊问题，在清晰度LPIPS、FID和保真度PSNR、SSIM之间实现良好的平衡。然后，在精细阶段，Diff3DE 进一步利用预先训练的图像扩散模型来补充丰富的分布细节，同时保持良好的 3D 一致性。

Bringing Back the Context: Camera Trap Species Identification as Link Prediction on Multimodal Knowledge Graphs
Authors Vardaan Pahuja, Weidi Luo, Yu Gu, Cheng Hao Tu, Hong You Chen, Tanya Berger Wolf, Charles Stewart, Song Gao, Wei Lun Chao, Yu Su
相机陷阱是动物生态学中用于生物多样性监测和保护的宝贵工具。然而，诸如在新的看不见的位置部署的通用性差等挑战限制了它们的实际应用。图像自然地与可能以不同方式存在的异构形式的上下文相关联。在这项工作中，我们利用与相机陷阱图像相关的结构化上下文来改进相机陷阱中物种识别任务的分布泛化。例如，野生动物的照片可能与拍摄地点和时间的信息以及有关动物物种的结构化生物学知识相关联。虽然现有工作通常会忽视这一点，但带回这样的背景可以为更好地理解图像提供一些潜在的好处，例如解决数据稀缺性和增强泛化能力。然而，将这种异构上下文有效地集成到视觉领域是一个具有挑战性的问题。为了解决这个问题，我们提出了一个新的框架，将物种分类重新表述为多模态知识图 KG 中的链接预测。该框架无缝集成了各种形式的多模态上下文以进行视觉识别。我们将该框架应用于 iWildCam2020 WILDS 和 Snapshot Mountain Zebra 数据集上的分布外物种分类，并通过最先进的方法实现了具有竞争力的性能。

SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity
Authors Peihao Wang, Zhiwen Fan, Dejia Xu, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
乐谱蒸馏已成为文本到 3D 资产合成最流行的方法之一。本质上，分数蒸馏通过提升和反向传播在不同视图上平均的分数来更新 3D 参数。在本文中，我们揭示了分数蒸馏中的梯度估计是高方差所固有的。通过方差减少的视角，SDS 和 VSD 的有效性可以解释为将各种控制变量应用于蒸馏分数的蒙特卡罗估计量。受这种重新思考的推动，并基于 Stein 的身份，我们提出了一种更通用的解决方案来减少分数蒸馏的方差，称为 Stein 分数蒸馏 SSD。 SSD 结合了由 Stein 恒等式构建的控制变量，允许任意基线函数。这使我们能够包含灵活的指导先验和网络架构，以明确优化以减少方差。在我们的实验中，称为 SteinDreamer 的整个流程是通过使用单目深度估计器实例化控制变量来实现的。结果表明，SSD 可以有效减少蒸馏方差，并持续提高对象和场景级别生成的视觉质量。

A Generalist FaceX via Learning Unified Facial Representation
Authors Yue Han, Jiangning Zhang, Junwei Zhu, Xiangtai Li, Yanhao Ge, Wei Li, Chengjie Wang, Yong Liu, Xiaoming Liu, Ying Tai
这项工作提出了 FaceX 框架，这是一种新颖的面部通才模型，能够同时处理多种面部任务。为了实现这一目标，我们最初为广泛的面部编辑任务制定了统一的面部表示，从宏观上将面部分解为基本身份、个人内部变化和环境因素。基于此，我们引入面部全向表示分解FORD，用于无缝操纵各种面部组件，微观分解大多数面部编辑任务的核心方面。此外，通过利用预训练的 StableDiffusion SD 的先验来提高生成质量并加速训练，我们设计了面部全方位表示转向 FORS，首先组装统一的面部表示，然后通过高效的面部表示控制器 FRC 有效地引导 SD 感知生成过程。在没有任何附加功能的情况下，我们的多功能 FaceX 与流行的面部编辑任务中的复杂任务特定模型相比，实现了具有竞争力的性能。

SAR-RARP50: Segmentation of surgical instrumentation and Action Recognition on Robot-Assisted Radical Prostatectomy Challenge
Authors Dimitrios Psychogyios, Emanuele Colleoni, Beatrice Van Amsterdam, Chih Yang Li, Shu Yu Huang, Yuchong Li, Fucang Jia, Baosheng Zou, Guotai Wang, Yang Liu, Maxence Boels, Jiayu Huo, Rachel Sparks, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin, Mengya Xu, An Wang, Yanan Wu, Long Bai, Hongliang Ren, Atsushi Yamada, Yuriko Harai, Yuto Ishikawa, Kazuyuki Hayashi, Jente Simoens, Pieter DeBacker, Francesco Cisternino, Gabriele Furnari, Alex Mottrie, Federica Ferraguti, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Soohee Kim, Seung Hyun Lee, Kyu Eun Lee, Hyoun Joong Kong, Kui Fu, Chao Li, Shan An, Stefanie Krell, Sebastian Bodenstedt, Nicolas Ayobi, Alejandra Perez, Santiago Rodriguez, Juanita Puentes, Pablo Arbelaez, Omid Mohareri, Danail Stoyanov
手术工具分割和动作识别是许多计算机辅助干预应用的基本组成部分，从手术技能评估到决策支持系统。如今，基于学习的动作识别和分割方法优于经典方法，但依赖于大型带注释的数据集。此外，动作识别和工具分割算法通常是相互隔离地进行训练和预测，而不利用潜在的跨任务关系。通过 EndoVis 2022 SAR RARP50 挑战赛，我们发布了第一个用于手术动作识别和语义仪器分割的多模态、公开可用的体内数据集，其中包含机器人辅助根治性前列腺切除术 RARP 的 50 个缝合视频片段。挑战的目的是双重的。首先，使研究人员能够利用所提供数据集的规模，并在外科领域开发强大且高度准确的单任务动作识别和工具分割方法。其次，进一步探索基于多任务的学习方法的潜力，并确定其相对于单任务学习方法的比较优势。

Analyzing Local Representations of Self-supervised Vision Transformers
Authors Ani Vanyan, Alvard Barseghyan, Hakob Tamazyan, Vahan Huroyan, Hrant Khachatrian, Martin Danelljan
在本文中，我们对各种自监督 Vision Transformers ViT 进行了比较分析，重点关注它们的本地代表性能力。受大型语言模型的启发，我们研究了 ViT 在几乎不需要微调的情况下执行各种计算机视觉任务的能力。我们设计了一个评估框架来分析少量镜头语义分割、实例识别、对象检索和跟踪背景下局部（即补丁级别）表示的质量。我们发现，与掩模图像建模相比，像 DINO 这样基于对比学习的方法可以产生更通用的补丁表示，可以立即应用于下游任务，无需参数调整。使用后一种方法学习的嵌入，例如在屏蔽自动编码器中，具有高方差特征，会损害基于距离的算法（例如 k NN），并且不包含对大多数下游任务有用的信息。此外，我们通过对这项工作和 Scale MAE（屏蔽自动编码器的最新扩展）的基准进行分析，证明去除这些高方差特征可以增强 k NN。

RainSD: Rain Style Diversification Module for Image Synthesis Enhancement using Feature-Level Style Distribution
Authors Hyeonjae Jeon, Junghyun Seo, Taesoo Kim, Sungho Son, Jungki Lee, Gyeungho Choi, Yongseob Lim
如今自动驾驶技术的目标是4级或更高级别，但研究人员在开发应对各种挑战的可靠驾驶算法时面临着一些限制。为了促进自动驾驶汽车的广泛普及，解决该技术的安全问题非常重要。在各种安全问题中，恶劣天气条件造成的传感器堵塞问题可能是自动驾驶过程中基于多任务学习的感知算法最常见的威胁之一。为了解决这个问题，生成适当的数据集的重要性变得越来越重要。在本文中，以 BDD100K 注释的格式提出了从真实道路数据集 BDD100K 生成的具有传感器遮挡的合成道路数据集。每帧的雨条纹都是通过实验建立的方程得出的，并利用基于风格迁移的图像到图像翻译网络进行翻译。使用该数据集，对自动驾驶的各种多任务网络的退化（例如车道检测、驾驶区域分割和交通对象检测）进行了彻底的评估和分析。深入分析了基于深度神经网络的自动驾驶汽车感知系统的性能退化趋势。

Double-well Net for Image Segmentation
Authors Hao Liu, Jun Liu, Raymond Chan, Xue Cheng Tai
在这项研究中，我们的目标是通过引入两种新颖的用于图像分割的深度神经网络模型（称为双井网络）将经典数学模型与深度神经网络相结合。我们的模型从 Potts 模型中汲取灵感，利用神经网络来表示区域力函数。我们扩展了众所周知的 MBO Merriman Bence Osher 方案来求解 Potts 模型。广泛认可的 Potts 模型使用双阱势进行近似，然后通过算子分裂方法进行求解，这被证明是众所周知的 MBO 方案的扩展。随后，我们用数据驱动的UNet型网络取代了Potts模型中的区域力泛函，并引入了控制变量以增强有效性。由此产生的算法是由最小化双阱电势的函数激活的神经网络。我们提出的双井网络与许多现有的图像分割深度学习方法的区别在于其强大的数学基础。它们源自网络逼近理论，并采用MBO方案来近似求解Potts模型。通过结合数学原理，双井网络将 MBO 方案和神经网络联系起来，并为具有数学背景的网络设计提供了另一种视角。通过全面的实验，我们展示了双井网络的性能，展示了与最先进的神经网络相比其卓越的准确性和鲁棒性。总的来说，我们的工作结合了经典变分模型和深度神经网络的优势，为图像分割领域做出了宝贵的贡献。

A Comprehensive Overview of Fish-Eye Camera Distortion Correction Methods
Authors Jian Xu, De Wei Han, Kang Li, Jun Jie Li, Zhao Yuan Ma
鱼眼相机以其独特的宽视场等特点，在各个领域得到了广泛的应用。然而，与针孔相机相比，鱼眼相机存在明显的失真，导致捕获物体的图像失真。鱼眼相机失真是数字图像处理中的常见问题，需要有效的校正技术来提高图像质量。这篇综述全面概述了用于鱼眼相机畸变校正的各种方法。本文探讨了多项式畸变模型，该模型利用多项式函数来建模和校正径向畸变。此外，还讨论了全景映射、网格映射、直接方法和基于深度学习的方法等替代方法。

TSGAN: An Optical-to-SAR Dual Conditional GAN for Optical based SAR Temporal Shifting
Authors Moien Rangzan, Sara Attarchi, Richard Gloaguen, Seyed Kazem Alavipanah
与广泛研究的 SAR 到光学转换领域相比，本研究探索了较少研究的光学到 SAR 转换领域，由于这种转换的不适定性质，这是一个具有挑战性的领域。由于单个光学数据可以具有基于 SAR 观察几何形状的多个 SAR 表示，因此会出现复杂性。我们提出了一种称为 SAR 时间偏移的新颖方法，该方法输入来自所需时间戳的光学数据以及来自不同时间点但具有与预期 SAR 数据一致的观察几何形状的 SAR 数据，两者都补充了光学变化图干预期间的数据。该模型根据光学数据中观察到的变化修改 SAR 数据，以生成所需时间戳的 SAR 数据。我们的模型是一个双条件生成对抗网络 GAN，名为 Temporal Shifting GAN TSGAN，在生成器和判别器中都采用了连体编码器。为了防止模型对输入 SAR 数据过度拟合，我们采用了变化加权损失函数。我们的方法超越了传统的翻译方法，消除了 GAN 的虚构现象，特别是在未改变的区域，从而在这些区域产生更高的 SSIM 和 PSNR。此外，对 Pix2Pix 架构的修改和注意力机制的纳入增强了模型在所有数据区域的性能。这项研究为利用传统光学数据集（地球数据数据最丰富、历史最悠久的来源）铺平了道路，将其用途扩展到 SAR 领域和时间分析。为了促进进一步的研究，我们提供了研究中使用的代码、数据集以及用于为新感兴趣区域生成配对 SAR 光学数据集的框架。

SFGANS Self-supervised Future Generator for human ActioN Segmentation
Authors Or Berman, Adam Goldbraikh, Shlomi Laufer
在未修剪的长视频中定位和分类动作片段的能力对于自动驾驶汽车、机器人和医疗保健应用等许多应用特别感兴趣。如今，最流行的动作分割流程是将帧编码为特征向量，然后由时间模型进行处理以进行分割。在本文中，我们提出了一种自监督方法，该方法位于标准管道的中间，并生成原始特征向量的精细表示。

Diff-PCR: Diffusion-Based Correspondence Searching in Doubly Stochastic Matrix Space for Point Cloud Registration
Authors Qianliang Wu, Haobo Jiang, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang
有效地找到点云之间的最佳对应关系对于解决刚性和非刚性点云配准问题至关重要。现有方法通常依赖于几何或语义特征嵌入来建立对应关系并估计变换或流场。最近，最先进的方法已经采用类似 RAFT 的迭代更新来完善解决方案。然而，这些方法有一定的局限性。首先，他们的迭代细化设计缺乏透明度，并且在细化过程中迭代更新遵循固定路径，这可能导致次优结果。其次，这些方法忽视了细化或优化对应关系或匹配矩阵作为解决变换或流场的先导的重要性。他们通常根据点特征空间中的距离计算候选对应关系。然而，他们仅使用 Sinkhorn 或对偶 softmax 运算将候选匹配矩阵投影到某个矩阵空间中一次，以获得最终的对应关系。这一一次性投影匹配矩阵可能与全局最优匹配矩阵相差甚远，并且这些方法没有考虑目标匹配矩阵的分布。在本文中，我们提出了一种新颖的方法，利用去噪扩散模型来预测双随机矩阵空间内最佳匹配矩阵的搜索梯度。在反向去噪过程中，我们的方法沿着该去噪梯度迭代搜索更好的解决方案，该梯度指向目标匹配矩阵的最大似然方向。我们的方法通过允许搜索从在线骨干网或白噪声提供的任何初始匹配矩阵开始，提供了灵活性。

Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition
Authors Hanbo Cheng, Chenyu Liu, Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Jun Du
手写数学表达式识别 HMER 任务是 OCR 领域的一个关键分支。最近的研究表明，合并双向上下文信息可以显着提高 HMER 模型的性能。然而，现有方法无法在推理阶段有效利用双向上下文信息。此外，当前的双向训练方法主要是为字符串解码器设计的，不能充分推广到树解码器，而树解码器提供了卓越的泛化能力和结构分析能力。为了克服这些限制，我们提出了镜像翻转符号布局树 MF SLT 和双向异步训练 BAT 结构。我们的方法将双向训练策略扩展到树解码器，允许通过利用双向信息进行更有效的训练。此外，我们分别分析了HMER模型的视觉和语言感知的影响，并引入了共享语言建模SLM机制。通过SLM，我们增强了模型在处理视觉模糊时的鲁棒性和泛化性，特别是在训练数据丰富的场景下。我们的方法已通过大量实验得到验证，证明其能够在 CROHME 2014、2016 和 2019 数据集以及 HME100K 数据集上实现新的最先进结果。

Wild2Avatar: Rendering Humans Behind Occlusions
Authors Tiange Xiang, Adam Sun, Scott Delp, Kazuki Kozuka, Li Fei Fei, Ehsan Adeli
从遮挡的单眼视频中渲染移动人物的视觉外观是一项具有挑战性的任务。大多数现有研究都是在理想条件下渲染 3D 人体，需要清晰且无障碍的场景。这些方法不能用于在现实世界场景中渲染人类，因为障碍物可能会阻挡相机的视野并导致部分遮挡。在这项工作中，我们提出了 Wild2Avatar，这是一种针对野外单眼视频中遮挡的神经渲染方法。我们提出遮挡感知场景参数化，将场景解耦为遮挡、人类和背景三部分。此外，广泛的目标函数旨在帮助强制将人体与遮挡和背景解耦，并确保人体模型的完整性。

From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion
Authors Xingyuan Li, Yang Zou, Jinyuan Liu, Zhiying Jiang, Long Ma, Xin Fan, Risheng Liu
随着深度学习技术的快速发展，多模态图像融合在目标检测任务中变得越来越普遍。尽管它很受欢迎，但不同来源描述场景内容的固有差异使得融合成为一个具有挑战性的问题。当前的融合方法识别两种模态之间的共享特征，并使用迭代优化或深度学习架构将它们集成到这个共享域中，这通常忽略模态之间复杂的语义关系，导致对模态间连接的肤浅理解，从而导致次优融合结果。为了解决这个问题，我们引入了一种文本引导的多模态图像融合方法，该方法利用文本描述的高级语义来集成红外和可见图像的语义。该方法利用了不同模态的互补特征，增强了物体检测的准确性和鲁棒性。该密码本用于增强对融合的域内和域间动态的简化和简洁的描述，并进行微调以实现检测任务中的最佳性能。我们提出了一种双层优化策略，在融合和检测的联合问题之间建立联系，同时优化两个过程。此外，我们引入了第一个配对红外和可见光图像数据集，并附有文本提示，为未来的研究铺平了道路。

SynCDR : Training Cross Domain Retrieval Models with Synthetic Data
Authors Samarth Mishra, Kate Saenko, Venkatesh Saligrama
在跨域检索中，需要一个模型来跨两个视觉域识别来自相同语义类别的图像。例如，给定一个对象的草图，模型需要从在线商店的目录中检索该对象的真实图像。解决此类问题的标准方法是学习图像的特征空间，其中欧几里德距离反映相似性。即使没有人工注释（获取成本可能很高），现有方法也可以使用未标记的图像进行训练，效果相当好。我们的问题约束进一步将其应用于两个域不一定共享训练数据中任何公共类别的场景。当相关的两个域来自记录不同人身份的某些生物识别传感器的不同版本时，就会发生这种情况。我们提出了一个简单的解决方案，即生成合成数据来填充这些跨领域缺失的类别示例。我们通过将图像从一个视觉域到另一个视觉域的类别保留转换来实现这一点。我们比较了专门为此翻译训练的一对域的方法，以及那些可以通过提示使用大规模预训练文本到图像扩散模型的方法，发现后者可以生成更好的替换合成数据，从而导致更准确的交叉域检索模型。

Is It Possible to Backdoor Face Forgery Detection with Natural Triggers?
Authors Xiaoxuan Han, Songlin Yang, Wei Wang, Ziwen He, Jing Dong
深度神经网络显着提高了人脸伪造检测模型在判别人工智能生成内容 AIGC 方面的性能。然而，它们的安全性受到模型训练期间注入触发器（即后门攻击）的严重威胁。尽管现有的后门防御和手动数据选择可以减轻使用人眼敏感触发因素（例如补丁或对抗性噪声）的影响，但更具挑战性的自然后门触发因素仍然没有得到充分研究。为了进一步研究自然触发因素，我们提出了一种针对人脸伪造检测模型的综合后门攻击的新颖分析方法，该模型将自然触发因素嵌入到潜在空间中。我们从两个角度深入研究此类后门漏洞 1 基于模型判别优化的触发我们采用替代检测模型，通过最小化交叉熵损失来找到触发 2 数据分布自定义触发我们操纵长尾分布中不常见的面部属性来生成中毒没有检测模型监督的样本。此外，为了全面评估最新 AIGC 的检测模型，我们利用最先进的 StyleGAN 和稳定扩散来生成触发器。最后，这些后门触发器为生成的中毒样本引入了特定的语义特征，例如皮肤纹理和微笑，这些特征更加自然和鲁棒。大量实验表明，我们的方法在三个级别上均表现出色 1 攻击成功率我们的攻击成功率超过 99，模型精度小幅下降至 0.2 以下，中毒率低于 3 2 后门防御在以下情况下，我们的后门防御表现出更好的稳健性能

A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human Interaction Recognition
Authors Ruoqi Yin, Jianqin Yin
人类交互识别是识别特定情况下多个参与者之间的交互动作的过程。目的是识别多个实体之间的动作交互及其含义。许多单一的卷积神经网络存在无法捕获全局实例交互特征或训练困难等问题，导致动作语义模糊。此外，Transformer的计算复杂度也不容忽视，其捕捉图像中局部信息和运动特征的能力较差。在这项工作中，我们提出了一个两流混合 CNN Transformer 网络 THCT Net，它利用 CNN 的局部特殊性并通过 Transformer 模拟全局依赖关系。 CNN和Transformer分别同时对实体、交互实体之间的时间和空间关系进行建模。具体来说，基于 Transformer 的流将 3D 卷积与多头自注意力相结合，以学习令牌间相关性。我们为基于 CNN 的流提出了一种新的多分支 CNN 框架，该框架自动从骨架序列中学习联合时空特征。卷积层独立学习每个关节邻域的局部特征并聚合所有关节的特征。原始骨骼坐标及其时间差异与双分支范式相结合，以融合骨骼的运动特征。此外，还添加了残差结构以加速训练收敛。最后，利用并行拼接的方式融合两个分支的识别结果。

Low-cost Geometry-based Eye Gaze Detection using Facial Landmarks Generated through Deep Learning
Authors Esther Enhui Ye, John Enzhou Ye, Joseph Ye, Jacob Ye, Runzhou Ye
简介在人机交互和行为研究领域，准确的实时注视估计至关重要。传统方法通常依赖昂贵的设备或大型数据集，这在许多情况下是不切实际的。本文介绍了一种新颖的、基于几何的方法来应对这些挑战，利用消费级硬件来实现更广泛的适用性。方法我们利用能够在消费级芯片上快速推理的新型面部标志检测神经网络来生成准确且稳定的面部和虹膜 3D 标志。由此，我们推导出一小组基于几何的描述符，形成代表眼睛和头部运动的 8 维流形。然后使用这些描述符来制定线性方程来预测眼睛注视方向。结果我们的方法展示了以小于 1.9 度的角度误差预测注视的能力，可以与最先进的系统相媲美，同时实时操作并且需要的计算资源可以忽略不计。结论所开发的方法标志着注视估计技术向前迈出了重要一步，为传统系统提供了高度准确、高效且易于使用的替代方案。

Generalizing Single-View 3D Shape Retrieval to Occlusions and Unseen Objects
Authors Qirui Wu, Daniel Ritchie, Manolis Savva, Angel X. Chang
单视图 3D 形状检索是一项具有挑战性的任务，随着可用 3D 数据的增长，这一任务变得越来越重要。研究此任务的先前工作并未重点评估现实遮挡如何影响性能，以及形状检索方法如何推广到目标 3D 形状数据库包含看不见的形状或输入图像包含看不见的对象的场景。在本文中，我们系统地评估沿三个不同轴的单视图 3D 形状检索、对象遮挡和截断的存在、对不可见 3D 形状数据的泛化以及对输入图像中不可见对象的泛化。我们标准化了两个现有的真实图像数据集，并提出了一个数据集生成管道，以生成具有多个呈现真实遮挡的对象的场景的合成数据集。我们的实验表明，在先前的工作中通常对无遮挡数据进行训练会导致有遮挡的输入的性能显着下降。

Generative Model-Driven Synthetic Training Image Generation: An Approach to Cognition in Rail Defect Detection
Authors Rahatara Ferdousi, Chunsheng Yang, M. Anwar Hossain, Fedwa Laamarti, M. Shamim Hossain, Abdulmotaleb El Saddik
认知计算的最新进展以及深度学习技术的集成促进了智能认知系统ICS的发展。这在铁路缺陷检测的背景下特别有用，其中 ICS 将模拟人类对缺陷模式图像数据的分析。尽管卷积神经网络 CNN 在视觉缺陷分类方面取得了成功，但用于轨道缺陷检测的大型数据集的稀缺仍然是一个挑战，因为很少有事故事件会导致有缺陷的零件和图像。当代研究人员通过探索基于规则的生成数据增强模型来解决这一数据稀缺挑战。其中，变分自动编码器 VAE 模型可以生成真实数据，而无需用于噪声建模的大量基线数据集。本研究提出了一种基于 VAE 的铁路缺陷合成图像生成技术，结合重量衰减正则化和图像重建损失来防止过度拟合。所提出的方法用于为加拿大太平洋铁路 CPR 创建一个综合数据集，其中仅包含五个类别的 50 个真实样本。值得注意的是，生成了 500 个合成样本，重建损失最小为 0.021。 Visual Transformer ViT 模型使用此合成 CPR 数据集进行了微调，在对五个缺陷类别进行分类时实现了 98 99 的高准确率。

Horizontal Federated Computer Vision
Authors Paul K. Mandal, Cole Leo, Connor Hurley
在现代世界，记录的视觉数据量正在迅速增加。在许多情况下，数据存储在不同的地理位置，因此需要大量的时间和空间来整合。有时，还有隐私保护法规阻止数据整合。在这项工作中，我们提出了使用联合 Faster R CNN FRCNN 进行对象检测和识别的联合实现，以及使用联合全卷积网络 FCN 进行图像分割的联合实现。我们的 FRCNN 在 COCO2017 数据集的 5000 个示例上进行训练，而我们的 FCN 在 CamVid 数据集的整个训练集上进行训练。

EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Masked Audio Gesture Modeling
Authors Haiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Xuefei Zhe, Naoya Iwamoto, Bo Zheng, Michael J. Black
我们提出了 EMAGE，一个从音频和蒙面手势生成全身人体手势的框架，包括面部、局部身体、手和整体动作。为了实现这一目标，我们首先引入 BEATX BEAT SMPLX FLAME ，一个新的网格级整体语音数据集。 BEATX 将 MoShed SMPLX 身体与 FLAME 头部参数相结合，进一步细化头部、颈部和手指运动的建模，提供社区标准化的高质量 3D 运动捕捉数据集。 EMAGE 在训练期间利用屏蔽的身体姿势先验来提高推理性能。它涉及一个屏蔽音频手势转换器，促进音频到手势生成和屏蔽手势重建的联合训练，以有效地编码音频和身体手势提示。然后，将来自蒙面手势的编码身体提示分别用于生成面部和身体动作。此外，EMAGE 自适应地合并来自音频节奏和内容的语音特征，并利用四个组合 VQ VAE 来增强结果的保真度和多样性。实验表明，EMAGE 可生成具有最先进性能的整体手势，并且可以灵活地接受预定义的时空手势输入，生成完整的音频同步结果。

Multi-Granularity Representation Learning for Sketch-based Dynamic Face Image Retrieval
Authors Liang Wang, Dawei Dai, Shiyu Fu, Guoyin Wang
在特定场景下，可以通过人脸素描来识别人的身份。然而，绘制脸部素描通常需要很高的技巧并且耗时，限制了其在实际场景中的广泛应用。新的无草图人脸图像检索框架 SLFIR 1 试图通过为人类和机器在绘图过程中进行交互提供一种手段来克服障碍。考虑到SLFIR问题，少量笔画的局部素描与任何全脸照片之间存在较大差距，导致早期表现不佳。在本研究中，我们提出了一种多粒度 MG 表示学习 MGRL 方法来解决 SLFIR 问题，其中我们学习部分草图的不同粒度区域的表示，然后通过组合草图和图像的所有 MG 区域，最终得到距离已确定。在实验中，我们的方法在两个可访问数据集的早期检索方面优于最先进的基线。

UGPNet: Universal Generative Prior for Image Restoration
Authors Hwayoon Lee, Kyoungkook Kang, Hyeongmin Lee, Seung Hwan Baek, Sunghyun Cho
最近的图像恢复方法可大致分为两类：1 回归方法，在不合成高频细节的情况下恢复原始图像的粗糙结构；2 生成方法，即使生成的图像偏离原始图像的原始结构，也可以合成感知上真实的高频细节。输入。虽然这两个方向都已被单独广泛研究，但将它们的好处与单个框架合并的研究却很少。在本文中，我们提出了 UGPNet，这是一种通用的图像恢复框架，只需采用一对现有的回归模型和生成模型即可有效地实现这两种方法的优点。 UGPNet 首先使用回归模型恢复降级输入的图像结构，并在回归输出之上使用生成模型合成感知逼真的图像。然后，UGPNet 将回归输出和合成输出相结合，产生一个最终结果，除了感知上真实的纹理之外，还忠实地重建了原始图像的结构。

SHARE: Single-view Human Adversarial REconstruction
Authors Shreelekha Revankar, Shijia Liao, Yu Shen, Junbang Liang, Huaishu Peng, Ming Lin
根据图像进行 3D 人体姿势和形状重建 HPS 的准确性正在逐步提高。然而，没有一种已知的方法能够应对所有图像失真。为了解决由于相机姿势变化引起的问题，我们引入了 SHARE，这是一种新颖的微调方法，它利用对抗性数据增强来增强现有 HPS 技术的鲁棒性。我们对相机姿势对 HPS 重建结果的影响进行了全面分析。我们首先生成从不同相机角度系统捕获的大规模图像数据集。然后，我们建立了相机位姿和重建误差之间的映射作为连续函数，表征相机位姿和 HPS 质量之间的关系。

Explainability-Driven Leaf Disease Classification using Adversarial Training and Knowledge Distillation
Authors Sebastian Vasile Echim, Iulian Marius T iatu, Dumitru Clementin Cercel, Florin Pop
这项工作重点关注植物叶病分类，并探索对抗训练、模型可解释性和模型压缩三个关键方面。通过对抗性训练增强了模型针对对抗性攻击的鲁棒性，即使存在威胁也能确保准确分类。利用可解释性技术，我们深入了解模型的决策过程，提高信任度和透明度。此外，我们探索模型压缩技术来优化计算效率，同时保持分类性能。通过我们的实验，我们确定在基准数据集上，鲁棒性可以是分类准确性的代价，常规测试的性能降低 3 20，对抗性攻击测试的性能提高 50 70。

DXAI: Explaining Classification by Image Decomposition
Authors Elnatan Kadar, Guy Gilboa
我们提出了一种通过基于分解的可解释 AI DXAI 来解释和可视化神经网络分类的新方法。我们的方法不是提供解释热图，而是根据数据和所选分类器将图像分解为类不可知和类不同的部分。遵循分析和合成的基本信号处理范例，原始图像是分解部分的总和。因此，我们获得了一种完全不同的解释分类的方式。理想情况下，类别不可知部分由不具有类别信息的所有图像特征组成，其中类别独特部分是其补充。这种新的可视化在某些情况下可能会更有帮助且信息更丰富，特别是当属性本质上是密集的、全局的和可加的时，例如，当颜色或纹理对于类别区分至关重要时。

BusReF: Infrared-Visible images registration and fusion focus on reconstructible area using one set of features
Authors Zeyang Zhang, Hui Li, Tianyang Xu, Xiaojun Wu, Josef Kittler
在多模态相机一起操作的场景中，无法避免处理未对齐图像的问题。然而，现有的图像融合算法严重依赖严格配准的输入图像对来产生更精确的融合结果，作为提高下游高级视觉任务性能的一种方法。为了放宽这一假设，可以首先尝试配准图像。然而，现有的多种模态注册方法存在局限性，例如复杂的结构和对重要语义信息的依赖。本文旨在解决单一框架（称为 BusRef）中的图像配准和融合问题。我们专注于红外可见光图像配准和融合任务IVRF。在此框架中，输入的未对齐图像对将经过粗配准、精细配准和融合三个阶段。将会证明，统一的方法可以实现更强大的 IVRF。我们还提出了一种新颖的训练和评估策略，包括使用掩模来减少不可重构区域对损失函数的影响，这大大提高了融合任务的准确性和鲁棒性。最后但并非最不重要的一点是，梯度感知融合网络旨在保留互补信息。

HybridGait: A Benchmark for Spatial-Temporal Cloth-Changing Gait Recognition with Hybrid Explorations
Authors Yilan Dong, Chunlin Yu, Ruiyang Ha, Ye Shi, Yuexin Ma, Lan Xu, Yanwei Fu, Jingya Wang
现有的步态识别基准大多包括实验室环境中的微小服装变化，但缺乏外观随时间和空间的持续变化。在本文中，我们提出了第一个用于换衣步态识别的野外基准CCGait，它融合了多种服装变化、室内和室外场景以及92天内的多模态统计。为了进一步解决服装和视点变化的耦合效应，我们提出了一种混合方法 HybridGait，它利用时间动态和 3D 人体网格的投影 2D 信息。具体来说，我们引入了规范对齐空间时间变换器 CA STT 模块来编码人体关节位置感知特征，并通过具有 3D 2D 外观投影 SilD 策略的轮廓引导变形充分利用 3D 密集先验。我们的贡

COMMA: Co-Articulated Multi-Modal Learning
Authors Lianyu Hu, Liqing Gao, Zekang Liu, Chi Man Pun, Wei Feng
预训练的大规模视觉语言模型（例如 CLIP）在一系列下游任务中表现出了出色的通用性。然而，它们对输入文本提示的变化很敏感，需要选择提示模板才能获得满意的性能。最近，已经提出了各种方法来动态学习提示作为文本输入，以避免在微调过程中手工制作提示工程的要求。我们注意到这些方法在两个方面都不是最优的。首先，这些方法中视觉和语言分支的提示通常是分离的或单向相关的。因此，两个分支的提示并不完全相关，并且可能无法提供足够的指导来对齐两个分支的表示。其次，据观察，与 CLIP 相比，大多数先前的方法通常在已见的类上取得更好的性能，但在未见的类上导致性能下降。这是因为在预训练阶段学到的基本通用知识在微调过程中被部分遗忘。在本文中，我们提出协同多模态学习 COMMA 来解决上述限制。特别是，我们的方法考虑来自两个分支的提示来生成提示以增强两个分支的表示对齐。此外，为了减少对基本知识的遗忘，我们最小化了学习的提示与后期变压器层中预先训练的 CLIP 中手工制作的提示的嵌入之间的特征差异。我们通过三个代表性任务来评估我们的方法，即泛化到新类、新目标数据集和看不见的领域转移。

GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance
Authors Jun Wang, Hao Ruan, Mingjie Wang, Chuanghui Zhang, Chunhua Li, Jun Zhou
在过去的十年中，由于其广泛的应用场景，视觉注视估计在研究界引起了越来越多的关注。虽然现有的估计方法在提高预测精度方面取得了显着的成功，但它们主要从单个图像信号推断注视方向，并放弃了当前占主导地位的文本引导的巨大潜力。值得注意的是，视觉语言协作已经在一系列视觉任务中得到了广泛的探索，例如图像合成和操作，利用大规模对比语言图像预训练 CLIP 模型的卓越可迁移性。然而，现有的注视估计方法忽略了 CLIP 特征空间中语言信号和先验所传达的丰富语义线索，从而导致性能下降。为了弥补这一差距，我们深入研究了文本眼协作协议，并在本文中引入了一种新颖的注视估计框架，称为 GazeCLIP。具体来说，我们精心设计了一个语言描述生成器来生成具有粗略方向提示的文本信号。此外，还提出了基于 CLIP 的骨干网，该骨干网擅长表征文本眼睛对以进行注视估计。接下来是细粒度多模态融合模块的实现，旨在对异构输入之间的相互关系进行建模。

Masked Image Modeling via Dynamic Token Morphing
Authors Taekyung Kim, Dongyoon Han, Byeongho Heo
在各种自监督学习 SSL 方法中，掩模图像建模 MIM 是 Vision Transformers 的一个有前途的选择。 MIM 的本质在于标记明智的屏蔽补丁预测，目标是从图像中修补或由预先训练的标记器或模型生成的。我们认为，预先训练的模型中的目标通常表现出空间不一致，这使得模型学习更具辨别力的表示变得极具挑战性。为了缓解这个问题，我们引入了一种基于 Dynamic Token Morphing DTM 的新型自我监督信号，它动态聚合上下文相关的令牌。 DTM 可以普遍应用于各种 SSL 框架，但我们提出了一种简单的 MIM，利用 DTM 来有效提高性能，几乎不会引入额外的训练成本。我们在 ImageNet 1K 和 ADE20K 上的实验明显证明了我们方法的优越性。此外，iNaturalist 和细粒度视觉分类数据集的比较评估进一步验证了我们的方法在各种下游任务上的可迁移性。

Promoting Segment Anything Model towards Highly Accurate Dichotomous Image Segmentation
Authors Xianjie Liu, Keren Fu, Qijun Zhao
分割任何对象是实现通用人工智能的关键一步，而分割任何对象模型 SAM 极大地推进了计算机视觉基础模型的开发。我们对 SAM 能否增强高精度二分图像分割抱有很高的期望。

Probing the Limits and Capabilities of Diffusion Models for the Anatomic Editing of Digital Twins
Authors Karim Kadry, Shreya Gupta, Farhad R. Nezami, Elazer R. Edelman
数值模拟可以对控制心血管设备部署的物理过程进行建模。当此类模拟结合患者特定解剖结构的数字孪生计算模型时，它们可以加快设备设计过程并降低风险。尽管如此，仅使用患者特定数据限制了可以精确或充分探索的解剖变异性。在这项研究中，我们研究了潜在扩散模型 LDM 编辑数字孪生以创建解剖变体（我们称之为数字兄弟）的能力。数字双胞胎及其相应的兄弟姐妹可以作为比较模拟的基础，从而能够研究细微的解剖变化如何影响心血管设备的模拟部署，以及增强用于设备评估的虚拟队列。然而，虽然扩散模型的特点在于其编辑自然图像的能力，但其解剖学编辑数字孪生的能力仍有待研究。使用以心脏解剖学 3D 数字孪生为中心的案例，我们实现了生成数字兄弟的各种方法，并通过形态学和拓扑分析来表征它们。我们专门编辑数字孪生，以在不同空间尺度和局部区域内引入解剖变异，证明对共同解剖特征的偏见的存在。我们进一步表明，这种解剖偏差可以通过选择性编辑用于虚拟队列增强，部分缓解与数据集不平衡和缺乏多样性相关的问题。

Image Super-resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features
Authors Yuming Huang, Yingpin Chen, Changhui Wu, Hanrong Xie, Binhui Song, Hui Wang
Swin Transformer 图像超分辨率重建网络仅依赖于窗口注意力和移位窗口注意力的长程关系来探索特征。这种机制有两个限制。一方面，它只关注全局特征而忽略局部特征。另一方面，它只关注空间特征交互，而忽略通道特征和通道交互，从而限制了其非线性映射能力。为了解决上述限制，本文提出了通过局部全局特征的交替聚合来增强的 Swin Transformer 模块。在局部特征聚合阶段，本文引入移位卷积来实现局部空间信息与通道信息的交互。本文在全局特征聚合阶段提出了块稀疏全局感知模块。该模块首先对空间信息进行组织，然后将重组信息发送到空间选通单元，以实现空间和通道信息的进一步交互。然后，引入多尺度自注意力模块和低参数残差通道注意力模块来实现不同尺度的信息聚合。最后，所提出的网络在五个公开可用的数据集上进行了验证。

A Novel Approach for Defect Detection of Wind Turbine Blade Using Virtual Reality and Deep Learning
Authors Md Fazle Rabbi, Solayman Hossain Emon, Ehtesham Mahmud Nishat, Tzu Liang Bill Tseng, Atira Ferdoushi, Chun Che Huang, Md Fashiar Rahman
风力涡轮机承受持续的旋转应力和异常外力，例如风暴、闪电、飞行物体的撞击等，这可能会导致涡轮机叶片出现缺陷。因此，需要定期检查以确保正常功能并避免灾难性故障。由于位置偏远且人工检查不方便，检查任务具有挑战性。研究人员在文献中使用了来自风力涡轮机的带有裁剪缺陷的图像。他们忽略了可能的背景偏差，这可能会阻碍使用无人机或其他飞行器进行实时和自主的缺陷检测。为了克服这些挑战，在本文中，我们通过使用两步深度学习方法将缺陷置于背景中来实验缺陷检测的准确性。第一步，我们开发风力涡轮机的虚拟模型，以合成四种常见缺陷裂纹、前缘侵蚀、弯曲和轻微撞击损坏的近乎真实的图像。 Unity 感知包用于生成背景、随机性、相机角度和灯光效果变化的风力涡轮机叶片缺陷图像。第二步，训练定制的 U Net 架构来对涡轮叶片中的缺陷进行分类和分割。 U Net 架构的结果已经过彻底测试，并与 5 倍验证数据集进行了比较。

A comprehensive framework for occluded human pose estimation
Authors Linhao Xu, Lin Zhao, Xinxin Sun, Guangyu Li, Kedong Yan
遮挡对人体姿势估计提出了重大挑战。遮挡带来的挑战可归因于以下因素 1 数据遮挡人体姿势样本的收集和注释相对具有挑战性。 2 由于目标人和干扰个体之间的高度相似性，特征遮挡会导致特征混乱。 3 推理由于完整的身体结构信息的丢失，鲁棒推理变得具有挑战性。为遮挡人体姿势估计设计的现有方法通常只专注于解决这些因素之一。在本文中，我们提出了一个综合框架 DAG Data、Attention、Graph 来解决遮挡导致的性能下降问题。具体来说，我们引入了带有实例粘贴数据增强技术的掩模关节来模拟遮挡场景。此外，提出了自适应判别注意力模块 ADAM 来有效增强目标个体的特征。此外，我们提出了特征引导多跳 GCN FGMP GCN，以充分探索身体结构的先验知识并改进姿态估计结果。通过对三个用于遮挡人体姿势估计的基准数据集进行大量实验，我们证明所提出的方法优于现有方法。

CamPro: Camera-based Anti-Facial Recognition
Authors Wenjun Zhu, Yuan Sun, Jiani Liu, Yushi Cheng, Xiaoyu Ji, Wenyuan Xu
数百万个摄像头捕获的图像激增以及面部识别 FR 技术的进步使得 FR 的滥用成为严重的隐私威胁。现有的工作通常依靠混淆、合成或对抗性示例来修改图像中的面部，以实现反面部识别 AFR。然而，由相机模块捕获的包含敏感个人身份信息 PII 的未经修改的图像仍然可能被泄露。在本文中，我们提出了一种新颖的方法 CamPro 来捕获先天 AFR 图像。 CamPro 使封装良好的商品相机模块能够生成包含很少 PII 的图像，但仍然包含足够的信息来支持其他非敏感视觉应用，例如人员检测。具体来说，CamPro 调整相机图像信号处理器 ISP 内部的配置设置，即色彩校正矩阵和伽玛校正，以实现 AFR，并设计图像增强器以保持可能的人类观看者的图像质量。我们在概念验证相机上实施并验证了 CamPro，我们的实验证明了它在 10 个最先进的黑匣子 FR 模型上的有效性。结果表明，CamPro图像可以显着降低人脸识别精度至0.3，同时对目标非敏感视觉应用影响很小。

Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models
Authors Ashhadul Islam, Md. Rafiul Biswas, Wajdi Zaghouani, Samir Brahim Belhaouari, Zubair Shah
语言和视觉模型的协同作用催生了大型语言和视觉助手模型 LLVA，旨在让用户体验与基于图像的查询交织在一起的丰富对话体验。这些全面的多模态模型将视觉编码器与大型语言模型法学硕士无缝集成，扩展了它们在通用语言和视觉理解方面的应用。大型多模态模型 LMM 的出现预示着人工智能 AI 辅助的新时代，扩展了 AI 应用的视野。本文对 LMM 采取了独特的视角，探讨了它们使用针对特定数据集设计的定制提示来执行图像分类任务的功效。我们还研究了 LLVA 零样本学习能力。我们的研究包括对四个不同数据集 MNIST、Cats Vs 的基准分析。狗、膜翅目蚂蚁 vs.蜜蜂，以及包含 Pox Vs 的非常规数据集。非痘皮肤图像。我们的实验结果表明该模型具有出色的性能，在没有任何微调的情况下，各个数据集的分类精度达到了 85 、 100 、 77 和 79 。为了支持我们的分析，我们评估了针对特定任务进行微调后的模型性能。在一种情况下，对包含患有和不患有自闭症儿童的面部图像的数据集进行微调。在微调之前，模型的测试精度为 55，微调后显着提高到 83。

Diffusion Model with Perceptual Loss
Authors Shanchuan Lin, Xiao Yang
使用均方误差损失训练的扩散模型往往会生成不切实际的样本。当前最先进的模型依赖于无分类器的指导来提高样本质量，但其令人惊讶的有效性尚未得到充分理解。在本文中，我们表明，分类器自由指导的有效性部分源于它是一种隐式感知指导的形式。因此，我们可以直接将感知损失纳入扩散训练中以提高样本质量。由于扩散训练中使用的分数匹配目标与感知网络无监督训练中使用的去噪自动编码器目标非常相似，因此扩散模型本身是一个感知网络，可用于生成有意义的感知损失。我们提出了一种新颖的自我感知目标，可以产生能够生成更真实样本的扩散模型。对于条件生成，我们的方法仅提高样本质量，而不与条件输入纠缠，因此不会牺牲样本多样性。

Generating Enhanced Negatives for Training Language-Based Object Detectors
Authors Shiyu Zhao, Long Zhao, Vijay Kumar B.G, Yumin Suh, Dimitris N. Metaxas, Manmohan Chandraker, Samuel Schulter
基于语言的开放词汇对象检测的最新进展很大程度上归功于找到利用自由格式文本注释的大规模数据的更好方法。事实证明，使用判别性目标函数训练此类模型是成功的，但需要良好的正样本和负样本。然而，对象描述的自由形式性质和开放词汇使得否定的空间变得极其巨大。先前的工作随机采样负片或使用基于规则的技术来构建它们。相比之下，我们建议利用现代生成模型中内置的大量知识来自动构建与原始数据更相关的负数。具体来说，我们使用大型语言模型来生成负面文本描述，并使用文本到图像扩散模型来生成相应的负面图像。

A Large-Scale Re-identification Analysis in Sporting Scenarios: the Betrayal of Reaching a Critical Point
Authors David Freire Obreg n, Javier Lorenzo Navarro, Oliverio J. Santana, Daniel Hern ndez Sosa, Modesto Castrill n Santana
由于距离很长且地形不断变化，重新确定超长跑比赛的参与者可能会令人畏惧。为了克服这些挑战，人们开发了计算机视觉技术来分析跑步者的面部、号码布上的号码和服装。然而，我们的研究提出了一种基于步态的新颖方法，通过利用各种预先训练的人类动作识别 HAR 模型和损失函数来重新识别跑步者。我们的结果表明，这种方法为重新识别超长距离比赛中的跑步者提供了有希望的结果。此外，我们还研究了当运动员接近耐力极限时不同人体运动的重要性及其对重新识别准确性的潜在影响。我们的研究考察了跑步者步态的识别如何受到比赛关键点 CP 的影响，关键点 CP 定义为严重疲劳的时刻和终点线进入视野的点，距离该位置仅几公里。我们的目标是确定该 CP 如何提高运动员重新识别的准确性。我们的实验结果表明，当运动员接近这一点时，步态识别可以显着增强，mAP 最多增加 9 倍。

Particle-Based Shape Modeling for Arbitrary Regions-of-Interest
Authors Hong Xu, Alan Morris, Shireen Y. Elhabian
统计形状建模 SSM 是一种分析解剖结构形态变化的定量方法。这些分析通常需要在感兴趣的目标解剖区域建立模型，以关注特定的形态特征。我们提出了基于粒子的形状建模 PSM（一种广泛使用的 SSM 框架）的扩展，以允许对任意感兴趣区域进行形状建模。现有的定义感兴趣区域的方法计算成本昂贵并且具有拓扑限制。为了解决这些缺点，我们使用网格场来定义自由形式约束，这允许在形状表面上界定任意感兴趣的区域。此外，我们在模型优化中添加了二次罚分方法，以便能够在计算上有效地执行切割平面和自由形式约束的任意组合。

Discrete Distribution Networks
Authors Lei Yang
我们引入了一种新颖的生成模型，即离散分布网络 DDN，它使用分层离散分布来近似数据分布。我们假设，由于网络中的特征本质上包含分布信息，因此将网络从单个输出中解放出来以同时生成多个样本被证明是非常有效的。因此，DDN通过生成多个离散样本点来拟合目标分布，包括连续分布。为了捕获目标数据的更精细细节，DDN 从第一层生成的粗略结果中选择最接近 Ground Truth GT 的输出。然后将选定的输出反馈到网络中作为第二层的条件，从而生成更类似于 GT 的新输出。随着DDN层数的增加，输出的表示空间呈指数级扩展，生成的样本变得越来越类似于GT。这种离散分布的分层输出模式赋予 DDN 两个有趣的特性：高度压缩表示和更通用的零样本条件生成。

6D-Diff: A Keypoint Diffusion Framework for 6D Object Pose Estimation
Authors Li Xu, Haoxuan Qu, Yujun Cai, Jun Liu
由于遮挡和杂乱背景等挑战，从单个 RGB 图像估计 6D 物体姿态通常会涉及噪声和不确定性。同时，扩散模型在通过逐步去噪从具有高度不确定性的随机噪声生成高质量图像方面表现出了引人注目的性能。受其去噪能力的启发，我们提出了一种新颖的基于扩散的框架 6D Diff 来处理物体姿态估计中的噪声和不确定性，以获得更好的性能。在我们的框架中，为了建立准确的 2D 3D 对应关系，我们将 2D 关键点检测制定为反向扩散去噪过程。为了促进这样的去噪过程，我们设计了基于柯西混合的前向扩散过程，并根据对象特征来调节反向过程。

An Empirical Study of Scaling Law for OCR
Authors Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han
模型大小、数据量、计算量和模型性能的规律在自然语言处理 NLP 领域得到了广泛的研究。然而，光学字符识别 OCR 中的缩放定律尚未得到研究。为了解决这个问题，我们进行了全面的研究，包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性。最后，该研究证明了性能与模型大小以及训练之间的平滑幂律当其他影响因素保持不变时，数据量。此外，我们还构建了一个名为 REBU Syn 的大规模数据集，其中包含 600 万个真实样本和 1800 万个合成样本。

Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring
Authors Xin Gao, Tianheng Qiu, Xinyu Zhang, Hanlin Bai, Kang Liu, Xuan Huang, Hu Wei, Guoying Zhang, Huaping Liu
从粗到细的方案广泛应用于传统的单图像运动去模糊中，然而，在深度学习的背景下，现有的多尺度算法不仅需要使用复杂的模块来进行低尺度RGB图像和深度语义的特征融合，而且还需要手动生成没有足够置信度的低分辨率图像对。在这项工作中，我们提出了一种基于单输入和多输出 SIMO 的多尺度网络，用于运动去模糊。这简化了基于从粗到细方案的算法的复杂性。为了减轻使用多尺度架构带来的影响细节信息的恢复缺陷，我们将现实世界模糊轨迹的特征与可学习的小波变换模块相结合，重点关注模糊图像之间逐步过渡的方向连续性和频率特征清晰的图像。

New Job, New Gender? Measuring the Social Bias in Image Generation Models
Authors Wenxuan Wang, Haonan Bai, Jen tse Huang, Yuxuan Wan, Youliang Yuan, Haoyi Qiu, Nanyun Peng, Michael R. Lyu
图像生成模型可以根据给定文本生成或编辑图像。以 DALL E 和 Midjourney 为代表的图像生成技术的最新进展是突破性的。这些先进的模型尽管具有令人印象深刻的能力，但通常是在大量互联网数据集上进行训练的，这使得它们很容易生成延续社会刻板印象和偏见的内容，这可能会导致严重的后果。先前关于评估图像生成模型中的偏差的研究存在一些缺点，包括准确性有限、依赖大量的人力以及缺乏全面的分析。在本文中，我们提出了 BiasPainter，一种新颖的变质测试框架，可以准确、自动、全面地触发图像生成模型中的社会偏见。 BiasPainter 使用各种个人种子图像，并提示图像生成模型使用性别、种族和年龄中性查询来编辑这些图像。这些查询涵盖 62 个职业、39 种活动、57 种对象和 70 种人格特质。然后，该框架将编辑后的图像与原始种子图像进行比较，重点关注与性别、种族和年龄相关的任何变化。 BiasPainter 采用了一个测试预言，即在受到中性提示时这些特性不应被修改。基于此设计，BiasPainter 可以触发社会偏见并评估图像生成模型的公平性。为了评估 BiasPainter 的有效性，我们使用 BiasPainter 测试了稳定扩散和 Midjourney 等五种广泛使用的商业图像生成软件和模型。

Beyond Subspace Isolation: Many-to-Many Transformer for Light Field Image Super-resolution
Authors Zeke Zexi Hu, Xiaoming Chen, Vera Yuk Ying Chung, Yiran Shen
空间角度特征的有效提取在光场图像超分辨率LFSR任务中起着至关重要的作用，卷积和Transformers的引入导致了该领域的显着改进。然而，由于光场图像的4D数据量较大，许多现有方法选择将数据分解为多个较低维的子空间，并在每个子空间中单独执行Transformers。作为副作用，这些方法无意中将自注意力机制限制为仅访问 LF 数据的有限子集的一对一方案，从而明确阻止了对所有空间和角度线索的全面优化。在本文中，我们将这种限制定义为子空间隔离，并引入一种新颖的多对多 Transformer M2MT 来解决它。 M2MT 在执行自注意力机制之前聚合空间子空间中的角度信息。它可以完全访问光场图像中所有子孔径图像 SAI 的所有信息。因此，M2MT 能够全面捕获长距离相关依赖性。以 M2MT 作为关键组件，我们为 LFSR 开发了一个简单而有效的 M2MT 网络。我们的实验结果表明，M2MT 在各种公共数据集上实现了最先进的性能。

MultiFusionNet: Multilayer Multimodal Fusion of Deep Neural Networks for Chest X-Ray Image Classification
Authors Saurabh Agarwal, K. V. Arya, Yogesh Kumar Meena
胸部 X 射线成像是识别肺部疾病的重要诊断工具。然而，手动解释这些图像既耗时又容易出错。利用卷积神经网络 CNN 的自动化系统在提高胸部 X 射线图像分类的准确性和效率方面显示出了希望。虽然之前的工作主要集中在使用最终卷积层的特征图，但仍需要探索利用附加层来改进疾病分类的好处。从有限的医学图像数据集中提取鲁棒的特征仍然是一个严峻的挑战。在本文中，我们提出了一种新颖的基于深度学习的多层多模态融合模型，该模型强调从不同层提取特征并将其融合。我们的疾病检测模型考虑了每一层捕获的歧视性信息。此外，我们提出融合不同大小的特征图 FDSFM 模块，以有效地合并来自不同层的特征图。所提出的模型在三类和两类分类上分别实现了 97.21 和 99.60 的显着更高的准确率。

An attempt to generate new bridge types from latent space of generative adversarial network
Authors Hongjun Zhang
尝试使用生成人工智能技术生成新的桥梁类型。采用三跨梁桥、拱桥、斜拉桥、悬索桥的对称结构化图像数据集。基于Python编程语言、TensorFlow和Keras深度学习平台框架，以及Wasserstein损失函数和Lipschitz约束，构建和训练生成对抗网络。从获得的低维桥型潜在空间采样中，可以生成具有不对称结构的新桥类型。生成对抗网络可以在人类原有桥梁类型的基础上，通过有机组合不同的结构组件来创建新的桥梁类型。它具有一定程度的人类原创能力。

Self-supervised learning for skin cancer diagnosis with limited training data
Authors Hamish Haggerty, Rohitash Chandra
癌症诊断是机器学习中一个经过深入研究的问题，因为癌症的早期检测通常是预后的决定因素。监督深度学习通常通过迁移学习在癌症图像分类中取得优异的结果。然而，这些模型需要大量标记数据，并且对于几种类型的癌症，不存在大型标记数据集。在本文中，我们证明了使用称为 Barlow Twins 的自监督学习算法预训练的模型可以优于传统的监督迁移学习管道。我们并置两个基本模型，我在 ImageNet 上以监督方式预训练，ii 在 ImageNet 上以自监督方式预训练。随后，两者都在小型标记皮肤病变数据集上进行微调，并在大型测试集上进行评估。自监督传输的平均测试准确度为 70，而监督传输的平均测试准确度为 66。有趣的是，在随后的微调之前，通过对未标记的皮肤病变图像进行第二次自监督预训练，可以进一步提高性能。这暗示了在具有挑战性的环境中收集更多标记数据的替代路径，即仅收集更多未标记图像。

Optimizing ADMM and Over-Relaxed ADMM Parameters for Linear Quadratic Problems
Authors Jintao Song, Wenqi Lu, Yunwen Lei, Yuchao Tang, Zhenkuan Pan, Jinming Duan
乘子 ADMM 的交替方向方法在广泛的机器学习应用中获得了广泛的关注。结合过度松弛技术显示出提高 ADMM 收敛速度的潜力。然而，确定最佳算法参数（包括相关的惩罚参数和松弛参数）通常依赖于针对特定问题领域和上下文场景定制的经验方法。不正确的参数选择会严重阻碍 ADMM 的收敛速度。为了应对这一挑战，在本文中，我们首先提出了一种优化惩罚参数值的通用方法，然后提出了一种新颖的封闭形式公式来计算线性二次问题 LQP 背景下的最佳松弛参数。

Compressing Deep Image Super-resolution Models
Authors Yuxuan Jiang, Jakub Nawala, Fan Zhang, David Bull
深度学习技术已应用于图像超分辨率SR的背景下，在重建性能方面取得了显着的进步。现有技术通常采用高度复杂的模型结构，这导致模型尺寸较大且推理速度较慢。这通常会导致高能耗并限制其在实际应用中的采用。为了解决这个问题，这项工作采用了三阶段工作流程来压缩深度 SR 模型，从而显着降低了其内存需求。通过使用新设计的蒸馏损失的师生知识蒸馏，保持了恢复性能。我们已将此方法应用于两种流行的图像超分辨率网络 SwinIR 和 EDSR，以证明其有效性。由此产生的紧凑模型 SwinIRmini 和 EDSRmini 与原始版本相比，模型大小和浮点运算 FLOP 分别减少了 89 和 96。与原始模型和其他常用的 SR 方法相比，它们还保留了具有竞争力的超分辨率性能。

Client-wise Modality Selection for Balanced Multi-modal Federated Learning
Authors Yunfeng Fan, Wenchao Xu, Haozhao Wang, Penghui Ruan, Song Guo
选择合适的客户端参与迭代联合学习 FL 轮次对于有效利用广泛的分布式数据集至关重要。现有的客户选择方法仅考虑具有单模态数据的 FL 客户之间的变异性，但尚未考虑具有多模态数据的客户。我们发现，MFL 中传统的客户选择方案可能存在严重的模态水平偏差，这阻碍了多模态数据的协作开发，导致局部数据探索和全局聚合不足。为了应对这一挑战，我们为 MFL CMSFed 提出了一种客户明智的模态选择方案，该方案可以通过避免模态不平衡导致的客户选择偏差来综合利用来自每种模态的信息。具体来说，在每轮 MFL 中，来自不同模态的本地数据被选择性地用于参与本地训练和聚合，以减轻全局模型潜在的模态不平衡。为了以平衡的方式近似完全聚合的模型更新，我们引入了一种新颖的局部训练损失函数来增强弱模态，并同时调整由于不同客户的模态采用策略不一致而导致的不同特征空间。然后，设计了模态级梯度解耦方法来导出各自的子模函数，以在选择过程中保持梯度多样性，并根据每次迭代中的局部模态不平衡来平衡 MFL。

Controllable Safety-Critical Closed-loop Traffic Simulation via Guided Diffusion
Authors Wei Jer Chang, Francesco Pittaluga, Masayoshi Tomizuka, Wei Zhan, Manmohan Chandraker
评估自动驾驶车辆规划算法的性能需要模拟长尾交通场景。生成安全关键场景的传统方法通常缺乏真实性和可控性。此外，这些技术通常忽略了代理交互的动态。为了减轻这些限制，我们引入了一种基于引导扩散模型的新型闭环模拟框架。我们的方法有两个明显的优势：1 生成紧密模拟现实世界条件的真实长尾场景；2 增强可控性，实现更全面和交互式的评估。我们通过新颖的指导目标来实现这一目标，这些目标可提高道路进度，同时降低碰撞和越野率。我们开发了一种新颖的方法，通过去噪过程中的对抗性术语来模拟安全关键场景，该方法允许对抗性代理通过合理的操作来挑战规划者，而场景中的所有代理都表现出反应性和现实的行为。我们使用 NuScenes 数据集凭经验验证我们的框架，展示了真实性和可控性方面的改进。这些发现证实，引导扩散模型为安全关键的交互式交通模拟提供了强大且多功能的基础，将其实用性扩展到更广泛的自动驾驶领域。

HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes
Authors Yuhta Takida, Yukara Ikemiya, Takashi Shibuya, Kazuki Shimada, Woosung Choi, Chieh Hsin Lai, Naoki Murata, Toshimitsu Uesaka, Kengo Uchida, Wei Hsiang Liao, Yuki Mitsufuji
矢量量化 VQ 是一种利用离散码本表示确定性学习特征的技术。它通常使用变分自动编码模型 VQ VAE 来执行，该模型可以进一步扩展到分层结构以进行高保真度重建。然而，VQ VAE 的这种分层扩展经常遇到码本层崩溃问题，其中码本不能有效地用于表达数据，从而降低了重建精度。为了缓解这个问题，我们提出了一种新颖的统一框架，在变分贝叶斯框架的基础上随机学习分层离散表示，称为分层量化变分自编码器 HQ VAE 。 HQ VAE 自然地概括了 VQ VAE 的分层变体，例如 VQ VAE 2 和残差量化 VAE RQ VAE ，并为它们提供了贝叶斯训练方案。我们对图像数据集的综合实验表明，HQ VAE 增强了码本的使用并提高了重建性能。

GAN-GA: A Generative Model based on Genetic Algorithm for Medical Image Generation
Authors M. AbdulRazek, G. Khoriba, M. Belal
医学影像是诊断和治疗疾病的重要工具。然而，缺乏医学图像可能导致诊断不准确和治疗无效。生成模型为解决医学图像短缺问题提供了一种有前途的解决方案，因为它们能够从现有数据集中生成新数据并检测该数据中的异常。使用缩放、裁剪、翻转、填充、旋转和平移等位置增强方法进行数据增强可能会导致数据较少的领域（例如医学图像数据）出现更多的过度拟合。本文提出了 GAN GA，一种通过嵌入遗传算法优化的生成模型。所提出的模型增强了图像保真度和多样性，同时保留了独特的特征。所提出的医学图像合成方法提高了医学图像的质量和保真度，这是图像解释的一个重要方面。为了评估合成图像，使用 Frechet Inception Distance FID。所提出的 GAN GA 模型通过生成急性淋巴细胞白血病 ALL 医学图像（图像数据集）进行测试，并且是首次用于生成模型。我们的结果与作为基线模型的 InfoGAN 的结果进行了比较。实验结果表明，所提出的优化 GAN GA 将 FID 分数提高了约 6.8，特别是在早期的训练时期。

An $\ell^1$-Plug-and-Play Approach for Magnetic Particle Imaging Using a Zero Shot Denoiser with Validation on the 3D Open MPI Dataset
Authors Vladyslav Gapyak, Corinna Rentschler, Thomas M rz, Andreas Weinmann
磁粒子成像 MPI 是一种新兴的医学成像方式，近年来引起了越来越多的关注。 MPI 的优点之一是其高时间分辨率，并且该技术不会将样本暴露于任何类型的电离辐射。它基于磁性纳米颗粒对施加磁场的非线性响应。根据接收线圈中测量的电信号，必须重建颗粒浓度。由于重建问题的不适定性，人们提出了各种用于重建的正则化方法，从提前停止方法、经典的吉洪诺夫正则化和迭代方法到现代机器学习方法。在这项工作中，我们为后一类做出了贡献，我们提出了一种基于具有 ell 1 先验的通用零样本降噪器的即插即用方法。此外，我们还制定了参数选择策略。

Automatic hip osteoarthritis grading with uncertainty estimation from computed tomography using digitally-reconstructed radiographs
Authors Masachika Masuda, Mazen Soufi, Yoshito Otake, Keisuke Uemura, Sotaro Kono, Kazuma Takashima, Hidetoshi Hamada, Yi Gu, Masaki Takao, Seiji Okada, Nobuhiko Sugano, Yoshinobu Sato
髋骨关节炎髋关节骨性关节炎的进展会导致疼痛和残疾，最终可能需要进行手术治疗，例如髋关节置换术。髋关节 OA 的严重程度通常使用 Crowe 和 Kellgren Lawrence KL 分类法进行分类。然而，由于分类是主观的，我们的目标是开发一种自动化方法，使用 CT 图像的数字重建射线照片 DRR，根据两个等级对疾病严重程度进行分类。使用基于深度学习的模型对髋关节 OA 严重程度进行自动分级。使用两种分级方案训练模型来预测疾病等级，即分别预测 Crowe 和 KL 等级，并预测结合这两个等级并代表髋关节 OA 疾病进展的新序号标签。这些模型在分类和回归设置中进行了训练。此外，还对模型不确定性进行了估计和验证，作为分类准确性的预测因子。这些模型在 197 名髋关节 OA 患者的数据库上进行了训练和验证，并在 52 名患者上进行了外部验证。使用精确类准确度 ECA 、单邻类准确度 ONCA 和平衡准确度来评估模型准确度。深度学习模型在分类和回归设置中产生的可比准确度约为 0.65 ECA 和 0.95 ONCA 。在分类误差 P 6e 3 大的情况下，模型不确定性明显更大。在这项研究中，开发了一种根据 CT 图像对髋关节 OA 严重程度进行自动分级的方法。这些模型显示出与高 ONCA 相当的性能，这有助于大规模 CT 数据库的自动分级，并表明进一步疾病进展分析的潜力。

TPatch: A Triggered Physical Adversarial Patch
Authors Wenjun Zhu, Xiaoyu Ji, Yushi Cheng, Shibo Zhang, Wenyuan Xu
自动驾驶汽车越来越多地利用基于视觉的感知模块来获取有关驾驶环境的信息并检测障碍物。正确的检测和分类对于确保安全驾驶决策非常重要。现有的工作已经证明了用打印的对抗性补丁欺骗物体检测器和图像分类器等感知模型的可行性。然而，它们中的大多数都对每一辆过往的自动驾驶车辆进行无差别的攻击。在本文中，我们提出了 TPatch，一种由声学信号触发的物理对抗补丁。与其他对抗性补丁不同，TPatch 在正常情况下保持良性，但可以通过针对摄像机的信号注入攻击引入的设计失真来触发发起隐藏、创建或更改攻击。为了避免人类驾驶员的怀疑并使攻击在现实世界中实用且鲁棒，我们提出了一种基于内容的伪装方法和一种攻击鲁棒性增强方法来加强它。使用三个目标检测器、YOLO V3 V5 和 Faster R CNN 以及八个图像分类器进行的评估证明了 TPatch 在模拟和现实世界中的有效性。

SSL-OTA: Unveiling Backdoor Threats in Self-Supervised Learning for Object Detection
Authors Qiannan Wang, Changchun Yin, Liming Fang, Lu Zhou, Zhe Liu, Run Wang, Chenhao Lin
自监督学习 SSL 的广泛采用导致后门攻击的安全威胁增加。虽然现有的研究主要集中在图像分类中的后门攻击，但对其对目标检测的影响的探索有限。在这项工作中，我们提出了第一个专为 SSL 场景中的对象检测任务设计的后门攻击，称为对象转换攻击 SSL OTA。 SSL OTA 采用能够将目标对象的预测更改为所需类别的触发器，包括两种攻击：数据中毒攻击 NA 和双源混合攻击 DSBA。 NA 在目标检测器的下游微调期间进行数据中毒，而 DSBA 还向预先训练的编码器注入后门。我们建立适当的指标并对基准数据集进行广泛的实验，证明我们提出的攻击的有效性和实用性。值得注意的是，NA 和 DSBA 都以极低的中毒率 0.5 实现了高攻击成功率 ASR。

Deep Radon Prior: A Fully Unsupervised Framework for Sparse-View CT Reconstruction
Authors Shuo Xu, Yucheng Zhang, Gang Chen, Xincheng Xiang, Peng Cong, Yuewen Sun
尽管稀疏视图计算机断层扫描 CT 显着降低了辐射剂量，但它也引入了严重的伪影，从而降低了图像质量。近年来，基于深度学习的反问题方法取得了显着进展，在 CT 重建中越来越受欢迎。然而，这些方法中的大多数都受到依赖于高质量训练数据、弱可解释性等的限制。在本研究中，受 Deep Image Prior DIP 的启发，我们提出了一种完全无监督的框架，称为 Deep Radon Prior DRP ，以解决上述限制。 DRP将神经网络作为隐式先验引入迭代方法中，从而实现跨域梯度反馈。在重建过程中，神经网络在多个阶段逐步优化，以缩小约束成像协议在氡域中的解空间，并且本文讨论了所提出方法的收敛性。与流行的预训练方法相比，所提出的框架不需要数据集，并且表现出优异的可解释性和泛化能力。

Quantifying intra-tumoral genetic heterogeneity of glioblastoma toward precision medicine using MRI and a data-inclusive machine learning algorithm
Authors Lujia Wang, Hairong Wang, Fulvio D Angelo, Lee Curtin, Christopher P. Sereduk, Gustavo De Leon, Kyle W. Singleton, Javier Urcuyo, Andrea Hawkins Daarud, Pamela R. Jackson, Chandan Krishna, Richard S. Zimmerman, Devi P. Patra, Bernard R. Bendok, Kris A. Smith, Peter Nakaji, Kliment Donev, Leslie C. Baxter, Maciej M. Mruga a, Michele Ceccarelli, Antonio Iavarone, Kristin R. Swanson, Nhan L. Tran, Leland S. Hu, Jing Li
胶质母细胞瘤 GBM 是最具侵袭性和致命性的人类癌症之一。肿瘤内遗传异质性给治疗带来了重大挑战。活检是侵入性的，这促进了基于 MRI 的非侵入性机器学习 ML 模型的开发，以量化每位患者的肿瘤内遗传异质性。这种能力对于实现更好的治疗选择以改善患者的治疗结果具有巨大的希望。我们提出了一种新型弱监督序数支持向量机 WSO SVM，以使用 MRI 预测每个 GBM 肿瘤内的区域遗传改变状态。 WSO SVM 应用于 74 位 GBM 患者的 318 个图像局部活检和空间匹配的多参数 MRI 的独特数据集。该模型经过训练，可根据从五张 MRI 对比图像的相应区域提取的特征来预测三个 GBM 驱动基因 EGFR、PDGFRA 和 PTEN 的区域遗传改变。为了进行比较，还应用了各种现有的机器学习算法。比较不同算法之间每个基因的分类准确性。 SHapley Additive exPlanations SHAP 方法进一步应用于计算不同对比度图像的贡献分数。最后，训练后的 WSO SVM 用于生成每位患者肿瘤区域内的预测图，以帮助可视化肿瘤内遗传异质性。

LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning
Authors S P Sharan, Francesco Pittaluga, Vijay Kumar B G, Manmohan Chandraker
尽管规划是自动驾驶堆栈的重要组成部分，但研究人员尚未开发出能够安全处理各种可能的驾驶场景的强大规划算法。基于学习的规划器存在过度拟合和长尾性能不佳的问题。另一方面，基于规则的规划器概括性很好，但可能无法处理需要复杂驾驶操作的场景。为了解决这些限制，我们研究了利用 GPT4 和 Llama2 等大型语言模型 LLM 的常识推理功能来生成自动驾驶车辆计划的可能性。特别是，我们开发了一种新颖的混合规划器，它利用传统的基于规则的规划器与基于法学硕士的规划器相结合。在法学硕士常识推理能力的指导下，我们的方法可以应对现有规划者难以应对的复杂场景，产生合理的输出，同时通过与基于规则的方法一起工作保持脚踏实地。通过对 nuPlan 基准的广泛评估，我们实现了最先进的性能，在大多数指标上都优于所有现有的纯学习和基于规则的方法。

Accelerating Process Development for 3D Printing of New Metal Alloys
Authors David Guirguis, Conrad Tucker, Jack Beuth
解决 3D 打印金属质量的不确定性和可变性可以进一步促进该技术的广泛使用。新合金的工艺图对于确定持续产生可接受的印刷质量的最佳工艺参数至关重要。工艺图通常通过传统方法进行，用于实验设计和打印部件的异位表征。另一方面，原位方法也受到限制，因为它们的可观察特征有限，并且需要复杂的高成本设置来获得温度测量以提高精度。我们的方法通过使用视频视觉变换器和高速成像在激光金属相互作用过程中结合熔融金属动力学的时间特征来放松这些限制。我们的方法可用于现有的商用机器，并可以提供原位流程图，以实现有效的缺陷和变异性量化。

Generalization properties of contrastive world models
Authors Kandan Ramakrishnan, R. James Cotton, Xaq Pitkow, Andreas S. Tolias
最近关于以对象为中心的世界模型的工作旨在以完全无监督或自监督的方式分解对象的表示。假设这样的世界模型是解决泛化问题的关键组成部分。尽管自我监督已显示出改进的性能，但 OOD 泛化尚未经过系统且明确的测试。在本文中，我们对对比世界模型的泛化特性进行了广泛的研究。我们在许多不同的 OOD 泛化场景下系统地测试模型，例如外推到新的对象属性、引入新的连词或新的属性。我们的实验表明，对比世界模型在不同的 OOD 测试下无法泛化，并且性能下降取决于样本 OOD 的程度。当可视化过渡更新和卷积特征图时，我们观察到对象属性的任何变化，例如以前未见过的颜色、形状或颜色和形状的结合，都会破坏对象表示的分解。

Any-point Trajectory Modeling for Policy Learning
Authors Chuan Wen, Xingyu Lin, John So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel
从演示中学习是教授机器人新技能的有效方法，更多的演示数据通常可以改善策略学习。然而，收集示范数据的高昂成本是一个重大瓶颈。视频作为丰富的数据源，包含行为、物理和语义知识，但由于缺乏动作标签，从中提取控制特定信息具有挑战性。在这项工作中，我们引入了一种新颖的框架，即任意点轨迹建模 ATM，它通过预训练轨迹模型来利用视频演示来预测视频帧内任意点的未来轨迹。经过训练后，这些轨迹将提供详细的控制指导，从而能够使用最少的动作标记数据来学习稳健的视觉运动策略。我们的方法的有效性在 130 个模拟任务中得到了证明，重点是语言条件操作任务。

Resource-Limited Automated Ki67 Index Estimation in Breast Cancer
Authors J. Gliozzo, G. Marin , A. Bonometti, M. Frasca, D. Malchiodi
最近利用肿瘤浸润淋巴细胞 TIL 和核蛋白 Ki67 作为预后因素来解决肿瘤进展和化疗反应的预测。最近，深度神经网络 DNN 已被证明在估计乳腺癌细胞中 Ki67 表达和同时确定瘤内 TIL 评分方面取得了最佳结果。然而，在过去十年中，深度模型带来的非凡进步至少与其资源需求一样激增。查询以及在某些情况下存储深度模型所需的高昂计算成本代表了资源有限环境中的严重限制，例如支持医疗人员的基于物联网的应用程序。为此，我们提出了一种资源消耗感知 DNN，用于有效估计乳腺癌筛查中 Ki67 阳性细胞的百分比。我们的方法分别将内存和磁盘空间的使用量减少了 75 倍和 89 倍，能耗降低了 1.5 倍，并保持或提高了最先进的基准解决方案的整体精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com