【AI视野·今日CV 计算机视觉论文速览第280期】Mon, 1 Jan 2024_multiscale vision transformers meet bipartite matc-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/135419704

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 1 Jan 2024
Totally 46 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning Vision from Models Rivals Learning Vision from Data
Authors Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola
我们介绍 SynCLR，这是一种专门从合成图像和合成字幕中学习视觉表示的新颖方法，无需任何真实数据。我们使用法学硕士合成图像标题的大型数据集，然后使用现成的文本到图像模型生成与每个合成标题相对应的多个图像。我们通过对比学习对这些合成图像进行视觉表示学习，将共享相同标题的图像视为正对。由此产生的表示可以很好地转移到许多下游任务，在图像分类任务中与其他通用视觉表示学习器（例如 CLIP 和 DINO v2）竞争。

Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization
Authors Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos
动作定位是一个具有挑战性的问题，它将检测和识别任务结合在一起，而这些任务通常是分开解决的。最先进的方法依赖于以高分辨率预先计算的现成边界框检测，并提出仅专注于分类任务的变压器模型。这样的两阶段解决方案对于实时部署来说是令人望而却步的。另一方面，单阶段方法通过将网络的一部分（通常是骨干）用于分担大部分工作负载，从而牺牲性能以换取速度，从而同时完成这两项任务。这些方法建立在添加具有可学习查询的 DETR 头的基础上，在交叉和自注意力之后，可以将其发送到相应的 MLP 以检测人的边界框和动作。

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
Authors Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
扩散模型已经将图像到图像的 I2I 合成转变为图像，现在正在渗透到视频中。然而，视频到视频 V2V 合成的进步受到了维持视频帧间时间一致性的挑战的阻碍。本文通过联合利用源视频中的空间条件和时间光流线索，提出了一致的 V2V 合成框架。与严格遵循光流的现有方法相反，我们的方法在处理流估计中的缺陷的同时利用了其优点。我们通过第一帧的扭曲对光流进行编码，并将其作为扩散模型中的补充参考。这使得我们的视频合成模型能够通过使用任何流行的 I2I 模型编辑第一帧，然后将编辑传播到连续帧。我们的 V2V 模型 FlowVid 展示了卓越的特性 1 灵活性 FlowVid 与现有 I2I 模型无缝协作，促进各种修改，包括风格化、对象交换和本地编辑。 2 效率生成 30 FPS、512x512 分辨率的 4 秒视频仅需 1.5 分钟，分别比 CoDeF、Rerender 和 TokenFlow 快 3.1 倍、7.2 倍和 10.5 倍。

Benchmarking the CoW with the TopCoW Challenge: Topology-Aware Anatomical Segmentation of the Circle of Willis for CTA and MRA
Authors Kaiyuan Yang, Fabio Musio, Yihui Ma, Norman Juchler, Johannes C. Paetzold, Rami Al Maskari, Luciano H her, Hongwei Bran Li, Ibrahim Ethem Hamamci, Anjany Sekuboyina, Suprosanna Shit, Houjing Huang, Diana Waldmannstetter, Florian Kofler, Fernando Navarro, Martin Menten, Ivan Ezhov, Daniel Rueckert, Iris Vos, Ynte Ruigrok, Birgitta Velthuis, Hugo Kuijf, Julien H mmerli, Catherine Wurster, Philippe Bijlenga, Laura Westphal, Jeroen Bisschop, Elisa Colombo, Hakim Baazaoui, Andrew Makmur, James Hallinan, Bene Wiestler, Jan S. Kirschke, Roland Wiest, Emmanuel Montagnon, Laurent Letourneau Guillon, Adrian Galdran, Francesco Galati, Daniele Falcetta, Maria A. Zuluaga, Chaolong Lin, Haoran Zhao, Zehan Zhang, Sinyoung Ra, Jongyun Hwang, Hyunjin Park, Junqiang Chen, Marek Wodzinski, Henning M ller, Pengcheng Shi, Wei Liu, Ting Ma, Cansu Yal in, Rachika E. Hamadache, Joaquim Salvi, Xavier Llado, Uma Maria Lal Trehan Estrada, Valeriia Abramova, Luca Giancardo, Arnau Oliver, Jialu Liu, Haibin Huang, Yue Cui, Zehang Lin, Yusheng Liu, Shunzhi Zhu, Tatsat R. Patel, Vincent M. Tutino, Maysam Orouskhani, Huayu Wang, Mahmud Mossa Basha, Chengcheng Zhu, Maximilian R. Rokuss, Yannick Kirchhoff, Nico Disch, Julius Holzschuh, Fabian Isensee, Klaus Maier Hein, Yuki Sato, Sven Hirsch, Susanne Wegener, Bjoern Menze
威利斯牛环是连接大脑主要循环的重要动脉网络。据信其血管结构会影响严重神经血管疾病的风险、严重程度和临床结果。然而，表征高度可变的奶牛解剖结构仍然是一项手动且耗时的专家任务。 CoW 通常通过两种血管造影成像方式成像，即磁共振血管造影 MRA 和计算机断层扫描血管造影 CTA，但带有 CoW 解剖学注释的公共数据集（特别是 CTA）有限。因此，我们于 2023 年组织了 TopCoW 挑战赛，发布了带注释的 CoW 数据集，并邀请全球提交 CoW 分割任务，吸引了来自四大洲的 140 多名注册参与者。 TopCoW 数据集是第一个带有 CoW 13 种血管组件体素级注释的公共数据集，通过虚拟现实 VR 技术实现。这也是第一个包含来自同一患者的 MRA 和 CTA 配对的数据集。 TopCoW 挑战旨在将 CoW 表征问题作为多类解剖分割任务来解决，重点是拓扑指标。表现最好的团队成功地将许多 CoW 组件划分为 90 左右的 Dice 分数，但交通动脉和罕见变体的分数较低。高 Dice 分数的预测也存在拓扑错误。额外的拓扑分析揭示了在检测某些 CoW 组件和准确匹配 CoW 变体拓扑方面需要进一步改进的领域。

Visual Point Cloud Forecasting enables Scalable Autonomous Driving
Authors Zetong Yang, Li Chen, Yanan Sun, Hongyang Li
与一般视觉的广泛研究相比，可扩展视觉自动驾驶的预训练仍然很少被探索。视觉自动驾驶应用需要同时包含语义、3D 几何和时间信息的特征来进行联合感知、预测和规划，这给预训练带来了巨大的挑战。为了解决这个问题，我们提出了一个新的预训练任务，称为视觉点云预测，根据历史视觉输入预测未来的点云。该任务的关键优点在于语义、3D 结构和时间动态的协同学习。因此，它在各种下游任务中显示出优越性。为了解决这个新问题，我们提出了 ViDAR，一种用于预训练下游视觉编码器的通用模型。它首先通过编码器提取历史嵌入。然后，通过新颖的潜在渲染算子将这些表示转换为 3D 几何空间，以用于未来的点云预测。

Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation
Authors Jiaxi Wang, Wenhui Hu, Xueyang Liu, Beihu Wu, Yuting Qiu, YingYing Cai
视觉接地旨在将图像特定区域的视觉信息与相应的自然语言表达对齐。当前的视觉基础方法分别利用预先训练的视觉和语言主干来获得视觉特征和语言特征。尽管这两种类型的特征随后通过精心设计的网络融合，但特征的异质性使得它们不适用于多模态推理。这个问题源于当前视觉基础方法中使用的单模态预训练主干之间的域差距，传统的端到端训练方法很难克服这一问题。为了缓解这一问题，我们的工作提出了一种用于视觉基础 EpmVG 框架的 Empowering 预训练模型，该框架提取了多模态预训练模型来指导视觉基础任务。 EpmVG基于一种新颖的跨模态蒸馏机制，可以有效地在预训练模型中引入图像和文本的一致性信息，减少主干网络中存在的域间隙，从而提高模型在视觉基础上的性能任务。

MoD2T:Model-Data-Driven Motion-Static Object Tracking Method
Authors Yang Feng, Liao Pan, Wu Di, Liu Bo, Zhang Xingle
多目标跟踪 MOT 领域在视频分析领域具有至关重要的意义。然而，该领域内的传统方法和基于深度学习的方法都表现出固有的局限性。仅由数据驱动的深度学习方法在准确识别物体的运动状态方面面临挑战，而依赖综合数学模型的传统方法可能会遇到跟踪精度不佳的问题。为了解决这些挑战，我们引入了模型数据驱动的运动静态对象跟踪方法 MoD2T。我们提出了一种新颖的架构，它将传统数学建模与基于深度学习的 MOT 框架巧妙地融合在一起，从而有效地减轻了与单独依赖既定方法或先进深度学习技术相关的局限性。 MoD2T 数学建模和深度学习的融合增强了物体运动确定的精度，从而提高了跟踪精度。我们的实证实验有力地证实了 MoD2T 在各种场景中的功效，包括无人机空中监视和街道跟踪。为了评估 MoD2T 辨别物体运动状态的能力，我们引入了 MVF1 指标。这种新颖的性能指标旨在测量运动状态分类的准确性，提供对 MoD2T 性能的全面评估。细致的实验证实了 MVF1 配方背后的基本原理。为了对 MoD2T 的性能进行全面评估，我们精心注释了不同的数据集并对 MoD2T 进行了严格的测试。

One-Shot Multi-Rate Pruning of Graph Convolutional Networks
Authors Hichem Sahbi
在本文中，我们设计了一种新颖的轻量级图卷积网络 GCN 设计，称为多速率幅度修剪 MRMP，它联合训练网络拓扑和权重。我们的方法是变分的，通过将学习网络的权重分布与先验分布对齐来进行。一方面，这允许实现任何固定的剪枝率，并且还增强了设计的轻量级 GCN 的泛化性能。另一方面，MRMP 在共享权重的基础上实现了多个 GCN 的联合训练，以便以任何目标剪枝率推断出准确的网络，而无需重新训练其权重。

P2M2-Net: Part-Aware Prompt-Guided Multimodal Point Cloud Completion
Authors Linlian Jiang, Pan Chen, Ye Wang, Tieru Wu, Rui Ma
从严重遮挡的点云中推断缺失区域非常具有挑战性。特别是对于具有丰富几何和结构细节的3D形状，未知部分存在固有的模糊性。现有方法要么以监督方式学习一对一映射，要么训练生成模型来合成缺失点以完成 3D 点云形状。然而，这些方法缺乏完成过程的可控性，并且结果要么是确定性的，要么表现出不受控制的多样性。受即时驱动数据生成和编辑的启发，我们提出了一种新颖的即时引导点云补全框架，即 P2M2 Net，以实现更可控、更多样化的形状补全。给定输入的部分点云和描述零件感知信息（例如缺失区域的语义和结构）的文本提示，我们基于 Transformer 的补全网络可以有效地融合多模态特征，并按照提示指导生成不同的结果。我们在新的大规模 PartNet Prompt 数据集上训练 P2M2 网络，并在两个具有挑战性的形状完成基准上进行广泛的实验。定量和定性结果显示了合并提示的有效性，以实现更可控的零件感知点云完成和生成。

Informative Rays Selection for Few-Shot Neural Radiance Fields
Authors Marco Orsingher, Anthony Dell Eva, Paolo Zani, Paolo Medici, Massimo Bertozzi
神经辐射场 NeRF 最近成为基于图像的 3D 重建的强大方法，但每个场景的冗长优化限制了它们的实际使用，特别是在资源有限的环境中。现有的方法通过减少输入视图的数量并使用复杂的损失或来自其他模式的额外输入来规范学习的体积表示来解决这个问题。在本文中，我们提出了 KeyNeRF，这是一种简单而有效的方法，通过关注关键信息射线，在少数镜头场景中训练 NeRF。这些光线首先在相机级别通过视图选择算法进行选择，该算法在保证场景覆盖的同时促进基线多样性，然后在像素级别通过从基于局部图像熵的概率分布进行采样来选择。

A Fully Automated Pipeline Using Swin Transformers for Deep Learning-Based Blood Segmentation on Head CT Scans After Aneurysmal Subarachnoid Hemorrhage
Authors Sergio Garcia Garcia, Santiago Cepeda, Ignacio Arrese, Rosario Sarabia
背景自发性蛛网膜下腔出血的准确体积评估 SAH 是一项劳动密集型任务，采用当前的手动和半自动方法进行，可能与其临床和预后影响相关。在本研究中，我们试图通过采用基于 Swin UNETR 架构的变压器的非造影计算机断层扫描 NCCT 扫描，为 SAH 患者开发和验证人工智能驱动的全自动血液分割工具。方法我们利用 Swin UNETR 进行分割，回顾性分析了确诊为动脉瘤性蛛网膜下腔出血 aSAH 的患者的 NCCT 扫描结果。使用 Dice 得分、并集交集 IoU 、体积相似性指数 VSI 、对称平均表面距离 SASD 以及灵敏度和特异性等指标，针对手动分段的地面实况数据评估所提出方法的性能。来自外部机构的验证队列被纳入其中，以测试模型的普遍性。结果该模型在内部和外部验证队列中表现出较高的准确性和稳健的性能指标。值得注意的是，它实现了高 Dice 系数 0.873、IoU 0.810、VSI 0.840、敏感性 0.821 和特异性 0.996 值以及低 SASD 1.866，这表明它能够熟练地分割 SAH 患者的血液。该模型的效率反映在其处理速度上，表明了实时应用的潜力。结论我们基于 Swin UNETR 的模型在 NCCT 图像上 aSAH 后的血液自动分割方面取得了重大进展。尽管计算强度很大，但该模型可以在标准硬件上有效运行，并具有用户友好的界面，从而促进更广泛的临床采用。

Distance Guided Generative Adversarial Network for Explainable Binary Classifications
Authors Xiangyu Xiong, Yue Sun, Xiaohong Liu, Wei Ke, Chan Tong Lam, Jiangang Chen, Mingfeng Jiang, Mingwei Wang, Hui Xie, Tong Tong, Qinquan Gao, Hao Chen, Tao Tan
尽管数据增强对于缓解数据不足具有潜在的好处，但传统的增强方法主要依赖于先前的领域内知识。另一方面，先进的生成对抗网络 GAN 生成种类有限的域间样本。这些先前的方法对描述二元分类的决策边界贡献有限。在本文中，我们提出了一种距离引导的 GAN DisGAN，它控制超平面空间中生成样本的变化程度。具体来说，我们通过结合两种方式来实例化 DisGAN 的想法。第一种方法是垂直距离 GAN VerDisGAN，其中域间生成以垂直距离为条件。第二种方式是水平距离 GAN HorDisGAN，其中域内生成以水平距离为条件。此外，VerDisGAN 可以通过将源图像映射到超平面来生成类特定区域。实验结果表明，DisGAN 在可解释的二元分类方面始终优于基于 GAN 的增强方法。

RS-DGC: Exploring Neighborhood Statistics for Dynamic Gradient Compression on Remote Sensing Image Interpretation
Authors Weiying Xie, Zixuan Wang, Jitao Ma, Daixun Li, Yunsong Li
由于地球观测项目每天产生的开放数据量不断增加带来的挑战，分布式深度学习最近在遥感遥感应用中引起了更多关注。然而，在多个节点之间发送模型更新的高通信成本是可扩展分布式学习的一个重要瓶颈。梯度稀疏化已被验证为一种有效的梯度压缩 GC 技术，可降低通信成本，从而加快训练速度。现有最先进的梯度稀疏方法大多基于较大的绝对更重要的标准，忽略了小梯度的重要性，而小梯度通常被认为会影响性能。受邻域信息流形结构信息表示的启发，我们提出了一种简单而有效的动态梯度压缩方案，利用邻域统计指标进行 RS 图像解释，称为 RS DGC。我们首先通过引入梯度邻域来增强梯度之间的相互依赖性，以减少随机噪声的影响。 RS DGC 的关键组件是邻域统计指标 NSI ，它可以量化每个节点上指定邻域内梯度的重要性，以在每次迭代中梯度传输之前稀疏化局部梯度。此外，提出了逐层动态压缩方案来实时跟踪每层的重要性变化。广泛的下游任务验证了我们的方法在遥感图像智能解释方面的优越性。

Noise-free Optimization in Early Training Steps for Image Super-Resolution
Authors MinKyu Lee, Jae Pil Heo
最近基于深度学习的单图像超分辨率 SISR 方法已显示出令人印象深刻的性能，而典型方法通过最小化相对于给定高分辨率 HR 图像的像素距离来训练其网络。然而，尽管基本训练方案是主要选择，但其在不适定逆问题中的使用尚未得到彻底研究。在这项工作中，我们的目标是通过将目标 HR 图像分解为两个子组件来更好地理解底层成分：1 最佳质心，它是多个潜在 HR 图像的期望；2 定义为 HR 图像之间残差的固有噪声和质心。我们的研究结果表明，当前的训练方案无法捕捉 SISR 的不适定性质，并且容易受到固有噪声项的影响，尤其是在早期训练步骤中。为了解决这个问题，我们提出了一种新颖的优化方法，通过估计最佳质心并直接针对估计进行优化，可以有效地消除普通训练早期步骤中的固有噪声项。实验结果表明，该方法可以有效增强普通训练的稳定性，从而提高整体性能。

Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation
Authors Tuan Anh Vu, Duc Thanh Nguyen, Qing Guo, Binh Son Hua, Nhat Minh Chung, Ivor W. Tsang, Sai Kit Yeung
文本到图像扩散技术已显示出从文本描述生成高质量图像的卓越能力。这表明视觉领域和文本领域之间存在很强的相关性。此外，由于开放概念提供了丰富多样的信息，诸如 CLIP 之类的文本图像判别模型在文本提示的图像标记方面表现出色。在本文中，我们利用这些技术进步来解决计算机视觉伪装实例分割中的挑战性问题。具体来说，我们提出了一种基于最先进的扩散模型的方法，通过开放词汇来学习伪装对象表示的多尺度文本视觉特征。这种跨域表示在分割伪装对象时是理想的，其中视觉线索很微妙，无法将对象与背景区分开来，特别是在分割训练中看不到的新对象时。我们还开发了技术支持组件，以有效地融合跨域特征并将相关特征引入到各自的前景对象中。我们验证了我们的方法，并将其与伪装实例分割和通用开放词汇实例分割的几个基准数据集上的现有方法进行比较。实验结果证实了我们的方法相对于现有方法的进步。

QGFace: Quality-Guided Joint Training For Mixed-Quality Face Recognition
Authors Youzhe Song, Feng Wang
图像中脸部裁剪的质量取决于许多因素，例如相机分辨率、距离和照明条件。这使得区分不同质量的人脸图像在实际应用中成为一个具有挑战性的问题。然而，大多数现有方法都是专门针对高质量 HQ 或低质量 LQ 图像而设计的，对于混合质量图像，性能会下降。此外，许多方法需要预先训练的特征提取器或其他辅助结构来支持训练和评估。在本文中，我们指出，同时更好地理解 HQ 和 LQ 图像的关键是根据它们的质量应用不同的学习方法。我们提出了一种用于混合质量人脸识别的新颖的质量引导联合训练方法，该方法可以使用单个编码器同时学习不同质量的图像。基于质量划分，采用基于分类的方法进行总部数据学习。同时，对于缺乏身份信息的LQ图像，我们通过自监督图像图像对比学习来学习它们。为了有效地赶上模型更新并提高联合训练场景中对比学习的可辨别性，我们进一步提出了一个代理更新的实时队列，以与来自真实编码器的特征组成对比对。

HEAP: Unsupervised Object Discovery and Localization with Contrastive Grouping
Authors Xin Zhang, Jinheng Xie, Yuan Yuan, Michael Bi Mi, Robby T. Tan
无监督对象发现和定位旨在在没有任何监督的情况下检测或分割图像中的对象。最近的努力已经证明了利用自监督变压器特征来识别显着前景物体的巨大潜力。然而，它们的范围仅建立在图像内的补丁级特征上，忽略了更广泛范围内的区域图像级和跨图像关系。此外，这些方法无法区分多个实例的各种语义。为了解决这些问题，我们通过对比分组 HEAP 引入分层合并框架。具体来说，设计了一种具有交叉注意机制的新型轻量级头部，基于自监督特征之间的相关性，自适应地将图像内块分组为语义一致的区域。此外，为了确保各个区域之间的可区分性，我们引入了区域级对比聚类损失来拉近图像中的相似区域。此外，还存在图像级对比度损失，以将前景和背景表示分开，从而相应地发现前景对象和背景。 HEAP 有助于高效的分层图像分解，这有助于更准确的对象发现，同时还可以区分不同类别的对象。

FerKD: Surgical Label Adaptation for Efficient Distillation
Authors Zhiqiang Shen
我们提出了 FerKD，一种新颖的高效知识蒸馏框架，它结合了部分软硬标签适应和区域校准机制。我们的方法源于观察和直觉，即标准数据增强（例如 RandomResizedCrop）倾向于将输入转换为不同的条件（简单阳性、硬阳性或硬阴性）。在传统的蒸馏框架中，这些转换后的样本通过从预训练的教师模型中得出的预测概率来平等地利用。然而，仅仅依靠预先训练的教师的预测值（先前研究中的常见做法）忽略了这些软标签预测的可靠性。为了解决这个问题，我们提出了一种新方案，使用软化的硬事实标签将不太自信的区域校准为上下文。我们的方法涉及硬区域采矿校准的过程。我们凭经验证明该方法可以显着提高收敛速度和最终精度。此外，我们发现一致的混合策略可以利用软标签来稳定软监督的分布。因此，我们引入了稳定的 SelfMix 增强，通过混合同一图像中的相似区域来削弱混合图像和相应软标签的变化。 FerKD 是一个直观且设计良好的学习系统，消除了以前 FKD 解决方案中的一些启发式方法和超参数。更重要的是，它在 ImageNet 1K 及下游任务上取得了显着的改进。例如，FerKD 在使用 ResNet 50 的 ImageNet 1K 上取得了 81.2 的成绩，明显优于 FKD 和 FunMatch。利用更好的预训练权重和更大的架构，我们经过微调的 ViT G14 甚至达到了 89.9。

Tracking with Human-Intent Reasoning
Authors Jiawen Zhu, Zhi Qi Cheng, Jun Yan He, Chenyang Li, Bin Luo, Huchuan Lu, Yifeng Geng, Xuansong Xie
感知建模的进步显着提高了对象跟踪的性能。然而，当前用于在初始帧中指定目标对象的方法是：1使用框或掩模模板，或者2提供明确的语言描述。这些方式很麻烦，并且不允许跟踪器具有自我推理能力。因此，这项工作提出了一种新的跟踪任务指令跟踪，其中涉及提供隐式跟踪指令，要求跟踪器在视频帧中自动执行跟踪。为了实现这一目标，我们研究了用于对象跟踪的大视觉语言模型 LVLM 的知识和推理能力的集成。具体来说，我们提出了一种名为 TrackGPT 的跟踪器，它能够执行基于复杂推理的跟踪。 TrackGPT 首先使用 LVLM 来理解跟踪指令，并将要跟踪的目标的线索压缩为引用嵌入。然后感知组件根据嵌入生成跟踪结果。为了评估 TrackGPT 的性能，我们构建了一个名为 InsTrack 的指令跟踪基准测试，其中包含超过一千个指令视频对，用于指令调整和评估。实验表明，TrackGPT 在引用视频对象分割基准测试中实现了具有竞争力的性能，例如在 Refer DAVIS 上获得了 66.5 mathcal J mathcal F 的最新性能。它还展示了新评估协议下指令跟踪的卓越性能。

Video Understanding with Large Language Models: A Survey
Authors Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao Huang, Zeliang Zhang, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo, Chenliang Xu
随着在线视频平台的蓬勃发展和视频内容量的不断增加，对熟练的视频理解工具的需求显着增强。由于大型语言模型法学硕士在关键语言任务中展示了卓越的能力，这项调查详细概述了利用法学硕士 Vid LLM 的力量在视频理解方面的最新进展。 Vid LLM 的新兴能力令人惊讶地先进，特别是它们的开放式时空推理与常识知识相结合的能力，为未来视频理解提供了一条有希望的道路。我们研究了 Vid LLM 的独特特征和功能，将这些方法分为四种主要类型：基于 LLM 的视频代理、Vid LLM 预训练、Vid LLM 指令调整和混合方法。此外，这项调查还对 Vid LLM 的任务和数据集以及评估所采用的方法进行了全面研究。此外，该调查还探讨了 Vid LLM 在各个领域的广泛应用，从而展示了其在应对现实世界视频理解挑战方面的卓越可扩展性和多功能性。最后，调查总结了现有 Vid LLM 的局限性以及未来研究的方向。

Commonsense for Zero-Shot Natural Language Video Localization
Authors Meghana Holla, Ismini Lourentzou
零样本自然语言视频定位 NLVL 方法通过动态生成视频片段和伪查询注释，仅使用原始视频数据训练 NLVL 模型，取得了可喜的成果。然而，现有的伪查询通常缺乏源视频的基础，导致内容非结构化且脱节。在本文中，我们研究了零样本 NLVL 中常识推理的有效性。具体来说，我们提出了 CORONET，这是一个零样本 NLVL 框架，它利用常识来弥合视频与通过常识增强模块生成的伪查询之间的差距。 CORONET 采用图卷积网络 GCN 对从知识图谱中提取的常识信息进行编码，以视频为条件，并采用交叉注意机制来在定位之前增强编码视频和伪查询表示。通过对两个基准数据集的实证评估，我们证明 CORONET 超越了零样本和弱监督基线，在各种召回阈值上实现了高达 32.13 的改进，在 mIoU 中实现了高达 6.33 的改进。

ChangeNet: Multi-Temporal Asymmetric Change Detection Dataset
Authors Deyi Ji, Siqi Gao, Mingyuan Tao, Hongtao Lu, Feng Zhao
由于双时态数据集的可用性，变化检测 CD 引起了广泛的兴趣。然而，由于多时态图像采集和标记的巨大成本，现有的变化检测数据集数量少、时态短、实用性低。因此，迫切需要一个涵盖广泛时间阶段的大规模实用数据集来促进社区的发展。为此，专门针对多时间变化检测提出了 ChangeNet 数据集，以及非对称变化检测的新任务。具体来说，ChangeNet 由 31,000 个多时间图像对、来自 100 个城市的广泛复杂场景和 6 个像素级注释类别组成，远远优于所有现有的变化检测数据集，包括 LEVIR CD、WHU Building CD 等。此外，ChangeNet包含同一区域不同时间阶段的大量现实世界视角扭曲，这能够促进变化检测算法的实际应用。 ChangeNet 数据集适用于二进制变更检测 BCD 和语义变更检测 SCD 任务。因此，我们在六种 BCD 方法和两种 SCD 方法上对 ChangeNet 数据集进行了基准测试，大量的实验证明了其挑战和重大意义。

Context-based Transfer and Efficient Iterative Learning for Unbiased Scene Graph Generation
Authors Qishen Chen, Xinyu Lyu, Haonan Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song
无偏差场景图生成 USGG 旨在解决 SGG 中的有偏差预测。为此，数据传输方法旨在将粗粒度谓词转换为细粒度谓词，从而减轻分布不平衡。然而，他们忽略了转移标签和主题对象对之间的上下文相关性，例如不适合女人餐桌吃饭。此外，它们通常涉及一个具有大量计算成本的两阶段过程，从预训练数据传输模型开始，然后使用传输的标签从头开始训练。因此，我们引入了一种名为 CITrans 的即插即用方法，该方法使用逐步增强的数据迭代训练 SGG 模型。首先，我们引入上下文限制传输CRT，它在谓词语义空间内施加主客体约束以实现细粒度的数据传输。随后，高效迭代学习EIL迭代训练模型并逐步生成与模型学习状态一致的增强标签，从而加速训练过程。

Comparing roughness descriptors for distinct terrain surfaces in point cloud data
Authors Lei Fan, Yang Zhao
地形表面粗糙度通常被抽象地描述，这对文献中发现的各种描述符的定量表征提出了挑战。本研究比较了五种常用的粗糙度描述符，探索了具有不同空间变化的三个地形的量化地形表面粗糙度图之间的相关性。此外，该研究还调查了空间尺度和插值方法对这些相关性的影响。本研究使用通过光探测和测距技术获得的密集点云数据。研究结果强调了导出的粗糙度图中的全局模式相似性和局部模式差异，强调了在局部粗糙度值在后续分析中发挥关键作用的研究中纳入多个描述符的重要性。

3VL: using Trees to teach Vision & Language models compositional concepts
Authors Nir Yellinek, Leonid Karlinsky, Raja Giryes
事实证明，视觉语言模型 VLM 在对齐图像和文本表示方面非常有效，在转移到许多下游任务时可产生卓越的零样本结果。然而，这些表示在组合语言概念 CLC 理解中存在一些关键缺陷，例如识别对象属性、状态和不同对象之间的关系。此外，VLM 通常具有较差的可解释性，这使得调试和缓解组合理解失败变得具有挑战性。在这项工作中，我们介绍了树增强视觉语言 3VL 模型架构和训练技术，以及我们提出的 Anchor 推理方法和 Differential Relevance DiRe 可解释性工具。通过使用语言分析工具将任意图像文本对的文本扩展为分层树结构，3VL 允许将该结构引入模型学习的视觉表示中，从而增强其可解释性和组合推理。此外，我们还展示了如何使用 Anchor（一种简单的文本统一技术）来过滤干扰因素，同时提高 CLC 理解性能，例如在基本的 VL Checklist 基准测试中。

Improving Image Restoration through Removing Degradations in Textual Representations
Authors Jingbo Lin, Zhilu Zhang, Yuxiang Wei, Dongwei Ren, Dongsheng Jiang, Wangmeng Zuo
在本文中，我们引入了一种通过消除给定退化图像的文本表示中的退化来改善图像恢复的新视角。直观上，文本模态的恢复比图像模态的恢复容易得多。例如，可以通过删除与降级相关的单词同时保留内容感知单词来轻松地进行。因此，我们结合图像在细节描述方面的优势和文本在退化去除方面的优势来进行恢复。为了解决跨模态辅助问题，我们建议将降级图像映射为文本表示以消除降级，然后将恢复的文本表示转换为引导图像以辅助图像恢复。特别是，我们巧妙地将图像到文本映射器和文本恢复模块嵌入到配备 CLIP 的文本到图像模型中以生成指导。然后，我们采用简单的从粗到细的方法将多尺度信息从引导动态注入到图像恢复网络。对各种图像恢复任务进行了大量的实验，包括去模糊、去雾、去雨和去噪，以及所有的图像恢复。结果表明，我们的方法在所有这些任务中都优于最先进的方法。

Count What You Want: Exemplar Identification and Few-shot Counting of Human Actions in the Wild
Authors Yifeng Huang, Duc Duy Nguyen, Lam Nguyen, Cuong Pham, Minh Hoai
本文解决了使用可穿戴设备的传感器数据来计算感兴趣的人类行为的任务。我们提出了一种新颖的基于范例的框架，允许用户通过发出预定义的声音一、二和三来提供他们想要计数的动作的范例。我们的方法首先从音频序列中定位这些话语的时间位置。这些位置作为识别代表感兴趣的动作类别的范例的基础。然后计算样本和整个传感器数据序列之间的相似性图，该相似性图被进一步馈送到密度估计模块中以生成估计密度值的序列。将这些密度值相加即可得出最终计数。为了开发和评估我们的方法，我们引入了一个多样化且真实的数据集，其中包含来自 37 个受试者和 50 个动作类别的现实世界数据，包括传感器和音频数据。该数据集上的实验证明了所提出的方法在计算不属于训练数据的新类和主题的动作实例方面的可行性。平均而言，预测计数与真实值之间的差异为 7.47，明显低于基于频率和基于变压器的方法的误差。

Understanding Distributed Representations of Concepts in Deep Neural Networks without Supervision
Authors Wonjoon Chang, Dahee Kwon, Jaesik Choi
理解深度学习分类器所学到的概念的中间表示对于解释一般模型行为是必不可少的。揭示学习概念的现有方法通常依赖于人类监督，例如预定义的概念集或分割过程。在本文中，我们提出了一种新颖的无监督方法，通过选择神经元的主要子集来发现概念的分布式表示。我们的实证研究结果表明，具有相似神经元激活状态的实例往往共享连贯的概念。基于观察结果，所提出的方法选择构建可解释区域的主要神经元，即宽松决策区域 RDR ，包含特征空间中具有连贯概念的实例。它可用于识别数据中未标记的子类并检测错误分类的原因。

Intelligent Parsing: An Automated Parsing Framework for Extracting Design Semantics from E-commerce Creatives
Authors Guandong Li, Xian Yang
在工业电商领域，横幅、海报等创意设计无处不在。从设计师制作的创意电商设计素材手稿中提取结构化语义信息以获得设计语义是智能设计领域的核心挑战。在本文中，我们提出了一个用于智能解析创意材料的全面自动化框架。该框架包括材料识别、预处理、智能名称和标签层。素材识别层整合了各种检测和识别接口，涵盖创意素材辅助区域检测、层级检测、标签识别等业务层面。算法上，涵盖了多种从粗到精的方法，如Cascade RCNN、GFL等模型。预处理层涉及创意层过滤和创意素材分级。 smartname层实现了创意素材的智能命名，而label层则覆盖了创意素材的多级标注，实现了不同层级的标注。智能解析构成了完整的解析框架，对智能创作、创意优化、素材库建设等下游流程有很大帮助。

RefineNet: Enhancing Text-to-Image Conversion with High-Resolution and Detail Accuracy through Hierarchical Transformers and Progressive Refinement
Authors Fan Shi
在这项研究中，我们介绍了RefineNet，这是一种新颖的架构，旨在解决文本到图像转换系统中的分辨率限制。我们探索从文本描述生成高分辨率图像的挑战，重点关注细节准确性和计算效率之间的权衡。 RefineNet 利用分层 Transformer 与渐进式和条件式细化技术相结合，在生成详细且高质量的图像方面优于现有模型。通过对不同数据集的大量实验，我们证明了RefineNet在清晰度和分辨率方面的优越性，特别是在动物、植物和人脸等复杂图像类别中。

X Modality Assisting RGBT Object Tracking
Authors Zhaisheng Ding, Haiyan Li, Ruichao Hou, Yanyu Liu, Shidong Xie, Dongming Zhou, Jinde Cao
学习鲁棒的多模态特征表示对于提高跟踪性能至关重要。为此，我们提出了一种新颖的 X 模态辅助网络 X Net，通过将视觉对象跟踪解耦为三个不同的级别来阐明融合范式的影响，从而促进后续处理。首先，为了解决由于RGB和热模态之间显着差异而产生的特征学习障碍，提出了一种基于自知识蒸馏学习的即插即用像素级生成模块PGM，它有效地生成X模态以弥合双模式之间的差距，同时减少噪音干扰。随后，为了进一步实现最佳样本特征表示并促进跨模态交互，我们提出了一种特征级交互模块 FIM，它结合了混合特征交互变换器和空间维度特征转换策略。最终，针对由于缺失实例特征而导致的随机漂移，我们提出了一种灵活的在线优化策略，称为决策级细化模块 DRM，其中包含光流和细化机制。

$μ$-Net: ConvNext-Based U-Nets for Cosmic Muon Tomography
Authors Li Xin Jed Lim, Ziming Qiu
μ 子散射断层扫描利用通常源自宇宙射线的 μ 子来对致密物体的内部进行成像。然而，由于宇宙射线μ介子在海平面的通量较低，并且μ介子在物质中传播时表现出高度复杂的相互作用，现有的重建算法常常面临分辨率低和噪声高的问题。在这项工作中，我们开发了一种新颖的两阶段深度学习算法 mu Net，它由一个用于预测 muon 轨迹的 MLP 和一个基于 ConvNeXt 的 U Net 将散射点转换为体素组成。 mu Net 在 1024 个 μ 子的用量下实现了 17.14 PSNR 的最先进性能，优于传统的重建算法，例如最近点算法、最大似然和期望最大化算法。此外，我们发现我们的方法对于各种损坏（例如μ子动量不准确或探测器分辨率有限）具有鲁棒性。我们还生成并公开发布第一个将 μ 子检测映射到体素的大规模数据集。

Transformer-Based Multi-Object Smoothing with Decoupled Data Association and Smoothing
Authors Juliano Pinto, Georg Hess, Yuxuan Xia, Henk Wymeersch, Lennart Svensson
多目标跟踪 MOT 是估计特定时间窗口内未知且随时间变化数量的目标的状态轨迹的任务。已经提出了几种算法来解决多对象平滑任务，其中对象检测可以以时间窗口中的所有测量为条件。然而，性能最好的方法面临着棘手的计算复杂性，并且需要近似值，在复杂的设置中表现不佳。基于深度学习的算法是解决此问题的可能途径，但尚未广泛应用于可用准确的多对象模型且测量值低维的环境中。我们提出了一种专门针对这种设置定制的新颖的深度学习架构，它将数据关联任务与平滑任务解耦。

TimePillars: Temporally-Recurrent 3D LiDAR Object Detection
Authors Ernesto Lozano Calvo, Bernardo Taveira, Fredrik Kahl, Niklas Gustafsson, Jonathan Larsson, Adam Tonderski
应用于激光雷达点云的物体检测是机器人技术中的一项相关任务，特别是在自动驾驶中。单帧方法在该领域占主导地位，利用来自各个传感器扫描的信息。最近的方法以相对较短的推理时间实现了良好的性能。然而，考虑到 LiDAR 数据固有的高度稀疏性，这些方法在长距离检测中遇到困难，例如： 200m，我们认为这对于实现安全自动化至关重要。聚合多个扫描不仅会产生更密集的点云表示，而且还为系统带来时间感知，并提供有关环境如何变化的信息。然而，此类解决方案通常是高度特定于问题的，需要仔细的数据处理，并且往往无法满足运行时要求。在这种情况下，我们提出了 TimePillars，一种时间循环对象检测管道，它利用跨时间 LiDAR 数据的支柱表示，尊重硬件集成效率限制，并利用新颖的 Zenseact 开放数据集 ZOD 的多样性和远程信息。

Flying By ML -- CNN Inversion of Affine Transforms
Authors L. Van Warren
本文描述了一种自动读取驾驶舱仪表的机器学习方法，使用 CNN 反转仿射变换并从仪器图像推断飞机状态。这项研究使用转弯和坡度指示器的合成图像进行了验证，介绍了从单个图像生成数据集、用于最佳无噪声训练的清洁训练原则以及用于从分类数据进行连续值预测的 CNN 插值等方法。

Semantic segmentation of SEM images of lower bainitic and tempered martensitic steels
Authors Xiaohan Bie, Manoj Arthanari, Evelin Barbosa de Melo, Juancheng Li, Stephen Yue, Salim Brahimi, Jun Song
这项研究采用深度学习技术来分割扫描电子显微镜图像，从而能够对具有相当强度的下贝氏体钢和回火马氏体钢中的碳化物析出物进行定量分析。分割后，对碳化物进行研究，并在图像数据集中探测它们的体积百分比、尺寸分布和方向。我们的研究结果表明，下贝氏体和回火马氏体表现出相当的碳化物体积百分比，尽管回火马氏体中碳化物的分布更均匀。下贝氏体中的碳化物表现出比回火马氏体中的碳化物更好的排列趋势，这与其他研究人员的观察结果一致。然而，两种微观结构都显示出分散的碳化物方向，没有任何可辨别的图案。对下贝氏体和回火马氏体中碳化物的长宽比和尺寸的比较分析揭示了惊人的相似之处。深度学习模型在单个像素级别对碳化铁基体进行分类时实现了令人印象深刻的 98.0 像素精度。

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
Authors Yuqing Wang, Yun Zhao
人们对多模态大型语言模型 MLLM（例如 OpenAI 的 GPT 4V sion）的兴趣日益浓厚，对学术和工业领域产生了重大影响。这些模型增强了大型语言模型法学硕士的高级视觉理解能力，促进其在各种多模式任务中的应用。最近，Google 推出了 Gemini，这是一款专为多模式集成而设计的尖端 MLLM。尽管取得了进步，但初步基准测试表明，Gemini 在常识推理任务中落后于 GPT 模型。然而，这种基于有限数据集（即 HellaSWAG）的评估并没有完全捕捉 Gemini 真正的常识推理潜力。为了解决这一差距，我们的研究对双子座在复杂推理任务中的表现进行了全面评估，这些任务需要跨模式的常识知识的整合。我们对 12 个常识推理数据集进行了全面分析，范围从一般任务到特定领域任务。其中包括 11 个仅关注语言的数据集，以及一个包含多模态元素的数据集。我们对四个法学硕士和两个法学硕士进行的实验证明了 Gemini 具有竞争力的常识推理能力。

Research on the Laws of Multimodal Perception and Cognition from a Cross-cultural Perspective -- Taking Overseas Chinese Gardens as an Example
Authors Ran Chen, Xueqi Yao, Jing Zhao, Shuhan Xu, Sirui Zhang, Yijun Mao
本研究旨在探讨多模态数据分析中感知和认知交互之间的复杂关系，特别关注海外中国园林的空间体验设计。研究发现，社交媒体上的评价内容和图像可以反映个人的关注点和情感反应，为认知研究提供丰富的数据基础，其中包含基于情感和基于图像的认知信息。利用深度学习技术，我们分析来自社交媒体的文本和视觉数据，从而揭示海外中国园林背景下人们的感知和情感认知之间的关系。此外，我们的研究还引入了多代理系统 MAS 和 AI 代理。每个智能体通过聊天场景模拟结合网络搜索来探索审美认知的规律。这项研究超越了将看法转化为情绪分数的传统方法，允许在直接分析文本和深入挖掘意见数据方面扩展研究方法。

Distribution-based Low-rank Embedding
Authors Bardia Yousefi
早期发现乳房异常至关重要。值得注意的是，红外热成像已成为乳腺癌筛查和临床乳房检查 CBE 的重要工具。测量异质热模式是结合计算动态热成像的关键，这可以通过矩阵分解技术来实现。这些方法侧重于从整个热序列中提取主要的热模式。然而，挑选出有效代表当前时间变化的主要图像的任务仍然是计算热成像领域内的一项具有挑战性的追求。在这种情况下，我们建议应用 James Stein 的特征向量 JSE 和 Weibull 嵌入方法，作为应对这一挑战的两种新颖策略。主要目标是创建热数据流的低维 LD 表示。这种 LD 近似是提取热组学和训练具有优化超参数的分类模型的基础，用于早期乳腺癌检测。此外，我们对矩阵分解方法的各种嵌入辅助进行了比较分析。该方法的结果表明，主要基向量的投影得到了增强，使用威布尔嵌入产生的分类精度为 81.7 ± 5.2，这优于我们之前提出的其他嵌入方法。在比较分析中，Sparse PCT 和 Deep SemiNMF 显示出最高的准确率，分别为 80.9 和 78.6。

MVPatch: More Vivid Patch for Adversarial Camouflaged Attacks on Object Detectors in the Physical World
Authors Zheng Zhou, Hongbo Zhao, Ju Liu, Qiaosheng Zhang, Guangbiao Wang, Chunlei Wang, Wenquan Feng
最近的研究表明，对抗性补丁可以操纵对象检测模型的输出。然而，这些斑块上的显眼图案可能会引起更多的关注并引起人类的怀疑。此外，现有的工作主要关注单个模型的攻击性能，而忽略了对多个目标检测模型进行整体攻击的对抗性补丁的生成。为了解决这些问题，我们提出了一种称为 More Vivid Patch MVPatch 的新方法，旨在提高对抗性补丁的可转移性和隐蔽性，同时考虑到先前范式中观察到的局限性，例如容易识别和可转移性差。我们的方法采用了一种攻击算法，该算法通过使用集成攻击损失函数来降低多个对象检测器的对象置信度分数，从而增强对抗性补丁的可转移性。此外，我们提出了一种通过比较指定图像相似度 CSS 损失函数实现的轻量级视觉相似度测量算法，该算法允许生成自然且隐秘的对抗性补丁，而无需依赖额外的生成模型。大量实验表明，与数字和物理领域的类似算法相比，所提出的 MVPatch 算法实现了卓越的攻击可转移性，同时还表现出更自然的外观。

Exact Consistency Tests for Gaussian Mixture Filters using Normalized Deviation Squared Statistics
Authors Nisar Ahmed, Luke Burks, Kailah Cabral, Alyssa Bekai Rose
我们考虑评估离散时间概率滤波器的动态一致性问题，该滤波器用高斯混合近似随机系统状态密度。动态一致性意味着估计的概率分布正确地描述了实际的不确定性。因此，在估计器调整和验证的应用中自然会出现一致性测试的问题。然而，由于所涉及的密度函数普遍复杂，基于混合的估计器的一致性测试的直接方法仍然难以定义和实施。本文在归一化偏差平方 NDS 统计框架内得出了高斯混合一致性检验的新精确结果。结果表明，通用多元高斯混合模型的 NDS 检验统计量完全遵循广义卡方分布的混合，对此可以使用高效的计算工具。

STanHop: Sparse Tandem Hopfield Model for Memory-Enhanced Time Series Prediction
Authors Dennis Wu, Jerry Yao Chieh Hu, Weijian Li, Bo Yu Chen, Han Liu
我们提出 STanHop Net 稀疏串联 Hopfield 网络，用于具有内存增强功能的多元时间序列预测。我们方法的核心是 STanHop，一种新颖的基于 Hopfield 的神经网络块，它以数据依赖的方式稀疏地学习和存储时间和跨序列表示。本质上，STanHop 使用两个串联稀疏 Hopfield 层顺序学习时间表示和跨序列表示。此外，StanHop 还包含两个额外的外部内存模块，即即插即用模块和调谐即用模块，分别用于增强训练较少和任务感知内存。它们使 StanHop Net 能够快速响应某些突发事件。在方法上，我们通过以分层方式堆叠 STanHop 块来构建 StanHop Net，从而实现具有特定于分辨率的稀疏性的多分辨率特征提取。从理论上讲，我们引入了现代 Hopfield 模型的稀疏扩展（广义稀疏现代 Hopfield 模型），并表明与密集对应模型相比，它具有更严格的记忆检索错误，而无需牺牲记忆容量。

Combining Convolution Neural Networks with Long-Short Time Memory Layers to Predict Parkinson's Disease Progression
Authors Maria Frasca, Davide La Torre, Ilaria Cutica
帕金森病是一种神经系统疾病，世界上近 1 人口患有这种疾病。该疾病的表现为多巴胺产生下降，症状是认知和行为方面的，包括随着疾病的进展而出现的各种人格改变、抑郁症、记忆问题和情绪失调。

Automatic laminectomy cutting plane planning based on artificial intelligence in robot assisted laminectomy surgery
Authors Zhuofu Li, Yonghong Zhang, Chengxia Wang, Shanshan Liu, Xiongkang Song, Xuquan Ji, Shuai Jiang, Woquan Zhong, Lei Hu, Weishi Li
目的本研究旨在利用人工智能实现椎板切除术的自动规划，并验证该方法。方法我们提出了一种自动椎板切除术切割平面规划的两阶段方法。第一阶段是识别关键点。每张CT图像上手动标记7个关键点。利用我们开发的空间金字塔上采样网络SPU Net算法来精确定位7个关键点。第二阶段，基于关键点的识别，为每个椎骨生成个性化的坐标系。最后在坐标系下生成椎板切除的横向和纵向切割平面。对规划的总体效果进行了评价。结果第一阶段SPU Net算法对7个关键点的平均定位误差为0.65mm。第二阶段，算法总共规划了320个横向剖切面和640个纵向剖切面。其中，A、B、C级水平面规划效应数分别为318 99.38个、1 0.31个、1 0.31个。 A、B、C级的纵向规划效应分别为622 97.18 、1 0.16 、17 2.66 。结论在本研究中，我们提出了一种基于CT图像关键点定位的椎板切除术自动手术路径规划方法。结果表明该方法取得了满意的结果。

Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation
Authors Yingtai Li, Xueming Fu, Shang Zhao, Ruiyang Jin, S. Kevin Zhou
稀疏视图 CT 是减少传统 CT 扫描辐射剂量的一种有前途的策略，但从不完整和噪声数据中重建高质量图像具有挑战性。最近，3D 高斯已被应用于对复杂的自然场景进行建模，与隐式神经表示 INR 相比，展示了快速收敛和更好的新视图渲染。受到 3D 高斯在自然场景建模和新颖视图合成中成功应用的启发，我们研究了它们在稀疏视图 CT 重建中的潜力。我们利用来自滤波反投影重建图像的先验信息来初始化高斯并通过比较投影空间中的差异来更新它们的参数。自适应密度控制进一步增强了性能。与 INR 相比，3D 高斯从先验信息中获益更多，可以显式绕过空白空间中的学习并有效地分配容量，从而加速收敛。 3D 高斯模型还可以有效地学习高频细节。 3D 高斯模型以自我监督的方式进行训练，避免了对大规模配对数据的需要。我们在 AAPM Mayo 数据集上的实验表明，与基于 INR 的方法相比，3D 高斯可以提供卓越的性能。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com