CV论文--2024.3.11-CSDN博客

本文链接：https://blog.csdn.net/u012854516/article/details/136619594

1、How Far Are We from Intelligent Visual Deductive Reasoning?

中文标题：我们离智能视觉演绎推理还有多远？

简介：最近，像GPT-4V这样的视觉语言模型（VLMs）在各种视觉语言任务上取得了惊人的进展。我们对基于视觉的演绎推理进行了深入研究，这是一个相对较复杂但较少被探索的领域，并发现了当前最先进的VLMs中存在的盲点。具体而言，我们利用雷文渐进矩阵（RPMs）评估VLMs在仅依靠视觉线索进行多跳关系和演绎推理的能力。我们对几个流行的VLMs进行了全面评估，并采用了标准策略，如上下文学习、自洽性和思维链（CoT）等，评估了三个不同的数据集，包括Mensa智商测试、IntelligenceTest和RAVEN。结果显示，尽管LLMs在基于文本的推理方面表现出令人印象深刻的能力，但在视觉演绎推理方面，我们的水平远未达到可比较的熟练程度。我们发现，一些对LLMs有效的标准策略在处理视觉推理任务时并不容易转化。此外，详细的分析表明，VLMs难以解决这些任务主要是因为它们无法感知和理解RPM示例中存在的多个混淆的抽象模式。

2、Masked Capsule Autoencoders

中文标题：屏蔽胶囊自动编码器

简介：我们提出了一种名为遮蔽胶囊自编码器（MCAE）的模型，它是第一个利用自监督预训练的胶囊网络。胶囊网络已成为卷积神经网络（CNNs）的一个强大替代方案，并且相比于视觉变换器（ViT），已经显示出有利的性质。然而，在处理更复杂的数据时，胶囊网络通常难以有效学习，导致模型无法适应现代任务的规模。

我们的MCAE模型通过重新构建胶囊网络，利用遮蔽图像建模进行预训练，并在监督学习中进行微调，从而解决了这个问题。通过多个实验和消融研究，我们证明了与CNN和ViT类似，胶囊网络也可以从自监督预训练中受益，为神经网络领域的进一步发展铺平道路。

例如，在Imagenette数据集上进行预训练，该数据集包含10个Imagenet大小的图像，我们不仅实现了胶囊网络的最新成果，而且相对于纯监督训练还提高了9％。因此，我们建议将胶囊网络置于遮蔽图像建模框架中进行训练，并采用新的胶囊解码器，以提高胶囊网络在现实大小图像上的性能。

3、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking

中文标题：深入研究多目标跟踪的轨迹长尾分布

简介：多目标跟踪（MOT）是计算机视觉领域中一个至关重要且具有广泛实际应用的研究领域。目前的研究主要集中在跟踪算法的开发和后处理技术的改进上。然而，对于跟踪数据本身的性质缺乏深入的研究。在本研究中，我们首次探索了跟踪数据的分布模式，并发现现有的MOT数据集存在明显的长尾分布问题。我们注意到不同行人轨迹长度分布的显著不平衡，我们将这种现象称为“行人轨迹长尾分布”。

为了解决这个问题，我们提出了一种量身定制的策略，旨在缓解这种偏斜分布的影响。具体而言，我们提出了两种数据增强策略，分别是静态相机视角数据增强（SVA）和动态相机视角数据增强（DVA），以及针对重新识别的组软最大值（GS）模块。SVA旨在回溯和预测尾部类别的行人轨迹，而DVA则利用扩散模型改变场景的背景。GS将行人分成不相关的组，并对每个组单独执行softmax操作。

我们提出的策略可以整合到许多现有的跟踪系统中，并且经过广泛的实验证明了我们的方法在减少长尾分布对多目标跟踪性能的影响方面的有效性。我们的代码可在https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT 上获取。