④Multimodal Token Fusion for Vision Transformers

dearRongerr

已于 2024-08-07 21:42:58 修改

阅读量888

点赞数 24

分类专栏：读文献文章标签： python

于 2024-07-25 18:05:50 首次发布

本文链接：https://blog.csdn.net/2301_77549977/article/details/140696185

版权

读文献专栏收录该内容

18 篇文章 0 订阅

订阅专栏

2022年CVPR
代码链接
 论文链接

文章总览

该文件是一篇关于多模态融合在视觉变换器（Vision Transformers,
ViTs）中应用的研究论文。以下是该论文的主要内容和方法的总结：

标题

Multimodal Token Fusion for Vision Transformers

作者和机构

由清华大学、华为诺亚方舟实验室和清华大学人工智能产业研究所的研究人员共同完成。

摘要

论文提出了一种名为TokenFusion的多模态令牌融合方法，旨在改进基于变换器的视觉任务。
TokenFusion通过动态检测信息量较少的令牌，并将这些令牌替换为投影和聚合的跨模态特征来实现多模态数据的有效融合。
采用残差位置对齐（Residual Positional Alignment, RPA）来显式利用融合后的跨模态对齐。
通过大量实验，证明了TokenFusion在多模态图像到图像翻译、RGB深度语义分割和基于点云和图像的3D对象检测等典型视觉任务中超越了现有最先进方法。

引言

介绍了变换器最初在自然语言处理领域的应用，并迅速扩展到视觉语言任务。
讨论了将变换器应用于计算机视觉任务的各种尝试，但处理多模态数据的尝试较少。
提出了TokenFusion方法，旨在在不改变单模态变换器架构的情况下，通过插入跨模态对齐来结合多个单模态变换器。

相关工作

讨论了计算机视觉中变换器的应用，以及如何通过多模态数据融合来提升性能。

方法论

基本融合方法：介绍了两种直观的多模态融合方法，包括对齐不敏感的融合和对齐敏感的融合。
多模态令牌融合（TokenFusion）：详细描述了TokenFusion方法，包括如何剪枝单模态变换器并重新利用剪枝单元进行融合。
残差位置对齐（RPA）：介绍了如何利用位置嵌入（PEs）来对齐多模态令牌。

实验

在多种同质和异质模态上进行了广泛的实验，验证了TokenFusion方法的有效性。
实验包括多模态图像到图像翻译、RGB深度语义分割和基于点云和图像的3D对象检测任务。
TokenFusion在这些任务中均取得了最先进的性能。

结论

TokenFusion是一种适应性强的方法，适用于同质或异质模态的视觉变换器融合。
通过利用残差位置对齐和跨模态投影，TokenFusion能够显式利用不同模态之间的对齐关系。
TokenFusion在多种任务中超越了现有最先进方法，展示了其优越性和通用性。

附录

提供了额外的实验结果和方法细节，包括多输入模态的评估、网络共享策略、TokenFusion与通道融合的结合以及图像翻译的实现细节。

致谢

论文感谢了支持该研究的项目和使用的软件工具。

这篇论文的核心贡献在于提出了一种新颖的多模态数据融合方法，能够在保持单模态变换器架构的同时，通过显式利用跨模态对齐关系来提升视觉任务的性能。

✔️摘要

Many adaptations of transformers have emerged to address the single-modal vision tasks, where self-attention modules are stacked to handle input sources like images. Intuitively, feeding multiple modalities of data to vision transformers could improve the performance, yet the innermodal attentive weights may also be diluted, which could thus undermine the final performance. In this paper, we propose a multimodal token fusion method (TokenFusion), tailored for transformer-based vision tasks. To effectively fuse multiple modalities, TokenFusion dynamically detects uninformative tokens and substitutes these tokens with projected and aggregated inter-modal features. Residual positional alignment is also adopted to enable explicit utilization of the inter-modal alignments after fusion. The design of TokenFusion allows the transformer to learn correlations among multimodal features, while the single-modal transformer architecture remains largely intact. Extensive experiments are conducted on a variety of homogeneous and heterogeneous modalities and demonstrate that TokenFusion surpasses state-of-the-art methods in three typical vision tasks: multimodal image-to-image translation, RGBdepth semantic segmentation, and 3D object detection with point cloud and images. Our code is available at https: //github.com/yikaiw/TokenFusion.

许多Transformer的适应性版本已经出现，以解决单模态视觉任务，其中自注意力模块堆叠起来处理图像等输入源。直观上，向视觉Transformer提供多种模态的数据可以提高性能，但模态内的注意力权重可能会被稀释，从而削弱最终的性能。在本文中，我们提出了一种针对基于Transformer的视觉任务的多模态令牌融合方法（TokenFusion）。为了有效地融合多种模态，TokenFusion动态检测无信息的令牌，并用投影和聚合的跨模态特征替换这些令牌。此外，还采用了残差位置对齐，以在融合后显式利用跨模态对齐。TokenFusion的设计使Transformer能够学习多模态特征之间的相关性，同时单模态Transformer架构基本保持不变。在各种同质和异质模态上进行了广泛的实验，结果表明TokenFusion在三种典型的视觉任务中超越了最先进的方法：多模态图像到图像的翻译、RGB深度语义分割，以及使用点云和图像的3D目标检测。我们的代码可在https://github.com/yikaiw/TokenFusion上获得。

⭕️1. Introduction

✔️2. Related Work

Transformers in computer vision. Transformer is originally designed for NLP research fields [40], which stacking multi-head self-attention and feed-forward MLP layers to capture the long-term correlation between words. Recently, vision transformer (ViT) [6] reveals the great potential of transformer-based models in large-scale image classification. As a result, transformer has soon achieved profound impacts in many other computer vision tasks such as segmentation [44, 47], detection [3, 8, 22, 48], image generation [16], video processing [20], etc.计算机视觉中的Transformer Transformer最初是为自然语言处理（NLP）研究领域设计的【40】，其通过堆叠多头自注意力和前馈MLP层来捕捉单词之间的长期关联。最近，视觉Transformer（ViT）【6】展示了基于Transformer的模型在大规模图像分类中的巨大潜力。因此，Transformer很快在许多其他计算机视觉任务中取得了深远的影响，如分割【44, 47】、检测【3, 8, 22, 48】、图像生成【16】、视频处理【20】等。

Fusion for vision transformers. Deep fusion with multimodal data has been an essential topic which potentially boosts the performance by leveraging multiple sources of inputs, and it may also unleash the power of transformers further. Yet it is challenging to combine multiple offthe-rack single transformers while guaranteeing that such combination will not impact their elaborate singe-modal de-signs. [2] and [20] process consecutive video frames with transformers for spatial-temporal alignments and capturing fine-grained patterns by correlating multiple frames. Regarding multimodal data, [26, 41] utilize the dynamic property of transformer modules to combine CNN backbones for fusing infrared/visible images or LiDAR points. [9] extends the coarse-to-fine experience from CNN fusion methods to transformers for image processing tasks. [14] adopts transformers to combine hyperspectral images by the simple feature concatenation. [24] inserts intermediate tokens between image patches and audio spectrogram patches as bottlenecks to implicitly learn inter-modal alignments. These works, however, differ from ours since we would like to build a general fusion pipeline for combing off-the-rack vision transformers without the need of re-designing their structures or re-tuning their optimization settings, while explicitly leveraging inter-modal alignment relations.

视觉Transformer的融合。 使用多模态数据进行深度融合一直是一个关键主题，通过利用多种输入源有可能提升性能，同时可能进一步释放Transformer的潜力。然而，结合多个现成的单模态Transformer时，保证这种结合不会影响其精细的单模态设计是一个挑战。【2】和【20】通过Transformer处理连续的视频帧，以实现时空对齐，并通过关联多个帧来捕捉细粒度模式。在多模态数据方面，【26, 41】利用Transformer模块的动态特性，将CNN主干网络结合起来以融合红外/可见光图像或LiDAR点云。【9】将CNN融合方法中的粗到细经验扩展到Transformer用于图像处理任务。【14】采用Transformer通过简单的特征拼接来结合高光谱图像。【24】在图像补丁和音频频谱图补丁之间插入中间令牌，作为瓶颈以隐式学习跨模态对齐。这些工作与我们的不同之处在于，我们希望构建一个通用的融合管道，用于结合现成的视觉Transformer，而无需重新设计其结构或重新调整其优化设置，同时显式利用跨模态对齐关系。

⭕️3. Methodology

✔️4 实验

实验部分概括
在这篇论文的实验部分，作者们对TokenFusion方法进行了全面的评估，以验证其在多模态数据融合任务中的有效性。以下是实验部分的详细介绍：
4. 实验
4.1 多模态图像到图像翻译

任务：基于不同图像模态作为输入（例如，从法线+深度到RGB），生成目标图像模态。
数据集：使用Taskonomy数据集，这是一个大规模的室内场景数据集，包含约400万张室内图像。
实验设置：采用两个变换器分别作为生成器和鉴别器。输入或生成器预测的分辨率为256×256。
结果：TokenFusion在多个评价指标上超越了现有的融合方法，包括FID/KID分数，表明生成的图像与真实图像在视觉上更为相似。
4.2 RGB-Depth 语义分割
任务：使用RGB和深度图像作为输入，进行语义分割。
数据集：选择了NYUDv2和SUN RGB-D这两个典型的室内数据集。
实验设置：TokenFusion模型包括小型（tiny）和小型（small）版本，采用ImageNet-1k上预训练的参数进行初始化。
结果：TokenFusion在像素准确度（Pixel Acc.）、平均准确度（mAcc.）和平均IoU（mIoU）等评价指标上超越了使用CNN的现有最先进模型。
4.3 视觉和点云3D对象检测
任务：同时学习基于3D点云的3D对象检测和基于2D图像的2D对象检测。
数据集：使用了SUN RGB-D和ScanNetV2数据集。
实验设置：3D检测和2D检测的架构分别遵循Group-Free和YOLOS框架。使用mAP@0.25和mAP@0.5作为评价指标。
结果：TokenFusion在两个数据集上都取得了新的最佳记录，显著优于先前的CNN/变换器模型。
4.4 可视化结果
论文中提供了TokenFusion在多模态图像翻译和3D对象检测中的可视化结果，展示了TokenFusion如何结合不同模态的优势来改善性能。
4.5 消融研究
l1-范数和令牌融合：展示了l1范数正则化和TokenFusion在提升性能方面的优势。
残差位置对齐（RPA）：评估了RPA在对齐不同模态特征时的有效性，尤其是在3D检测任务中。
4.6 结论
实验结果表明，TokenFusion是一个通用的多模态融合方法，能够在多种任务中取得优异的性能。实验部分通过在不同的视觉任务和数据集上进行广泛的测试，证明了TokenFusion方法的有效性和优越性。通过消融研究，作者们还展示了TokenFusion关键组件的重要性，如l1范数正则化和残差位置对齐。

To evaluate the effectiveness of the proposed TokenFusion, we conduct comprehensive experiments towards both homogeneous and heterogeneous modalities with state-ofthe-art (SOTA) methods. Experiments are conducted on totally seven different modalities and four application scenarios, implemented with PyTorch [25] and MindSpore [15].

为了评估所提出的TokenFusion的有效性，我们对同质和异质模态进行了全面的实验，并与最先进的方法（SOTA）进行了对比。这些实验在七种不同的模态和四种应用场景下进行，使用PyTorch【25】和MindSpore【15】实现。

4.1. Multimodal Image-to-Image Translation

The task of multimodal image-to-image translation aims at generating a target image modality based on different image modalities as input (e.g. Normal+Depth→RGB). We evaluate TokenFusion in this task using the Taskonomy [45] dataset, which is a large-scale indoor scene dataset containing about 4 million indoor images captured from 600 buildings. Taskonomy provides over 10 multimodal representations in addition to each RGB image, such as depth (euclidean or z-buffering), normal, shade, texture, edge, principal curvature, etc. The resolution of each representation is 512 × 512. To facilitate comparison with the existing fusion methods, we adopt the same sampling strategy as [42], resulting in 1,000 high-quality multimodal images for training, and 500 for validation.

多模态图像到图像翻译任务旨在基于不同的图像模态输入生成目标图像模态（例如，Normal+Depth→RGB）。我们使用Taskonomy【45】数据集在此任务中评估TokenFusion。Taskonomy是一个大规模的室内场景数据集，包含约400万张从600栋建筑物中捕获的室内图像。除了每张RGB图像外，Taskonomy还提供了超过10种多模态表示，例如深度（欧几里得或z缓冲）、法线、阴影、纹理、边缘、主曲率等。每种表示的分辨率为512 × 512。为了便于与现有融合方法进行比较，我们采用与【42】相同的采样策略，最终得到1,000张高质量的多模态图像用于训练，500张用于验证。

Our implementation contains two transformers as the generator and discriminator respectively. We provide configuration details in our supplementary materials. The resolution of the generator/discriminator input or the generator prediction is 256 × 256. We adopt two kinds of architecture settings, the tiny (Ti) version with 10 layers and the small (S) version with 20 layers, and both settings are only different in layer numbers. The learning rates of both transformers are set to 2 × 10−4. We adopt overlapped patches in both transformers inspired by [44].

我们的实现包含两个Transformer，分别作为生成器和判别器。具体的配置细节可以在我们的补充材料中找到。生成器/判别器的输入分辨率或生成器的预测分辨率为256 × 256。我们采用了两种架构设置：tiny（Ti）版本具有10层，small（S）版本具有20层，这两种设置仅在层数上有所不同。两个Transformer的学习率设置为2 × 10^−4。我们在两个Transformer中采用了重叠补丁，这一做法受到了【44】的启发。
在这里插入图片描述
在我们针对该任务的实验中，我们采用了共享Transformer处理所有输入模态，并为每个模态单独计算均值和方差的层归一化（LN）。具体来说，在补丁的线性投影、MSA中的所有线性投影（例如，键、查询等）和MLP中，参数都是在不同模态之间共享的。这种机制大大减少了模型的总大小，如补充材料中讨论的，这种做法甚至比使用独立的Transformer取得了更好的性能。此外，我们还采用了不同模态共享的位置嵌入。对于所有这些实验，我们将稀疏权重设置为λ = 10^−4（在公式(10)中）和阈值θ = 2 × 10^−2（在公式(7)中）。
Our evaluation metrics include FID/KID for RGB predictions and MAE/MSE for other predictions. These metrics are introduced in the supplementary materials.

Results. In Table 1, we provide comparisons with extensive baseline methods and a SOTA method [42] with the same data settings. All methods adopt the learned ensemble over the two predictions which are corresponded to the two modality branches. In addition, all predictions have the same resolution 256×256 for a fair comparison. Since most existing methods are based on CNNs, we further provide two baselines for transformer-based models including the baseline without feature fusion (only uses ensemble for the late fusion) and the feature fusion method. By comparison, our TokenFusion surpasses all the other methods with large margins. For example, in the Shade+Texture→RGB task, our TokenFusion (S) achieves 43.92/0.94 FID/KID scores, remarkably better than the current SOTA method CEN [42] with 29.8% relative FID metric decrease.

结果。 在表1中，我们提供了与大量基线方法以及一种SOTA方法【42】在相同数据设置下的比较。所有方法都采用了对两个预测分支的学习集成，分别对应于两种模态分支。此外，为了公平比较，所有预测的分辨率均为256×256。由于大多数现有方法基于CNN，我们还提供了两个基于Transformer模型的基线方法，包括不进行特征融合的基线（仅在后期融合中使用集成）和特征融合方法。相比之下，我们的TokenFusion在各个任务中都显著超越了其他方法。例如，在Shade+Texture→RGB任务中，我们的TokenFusion (S)取得了43.92/0.94的FID/KID分数，比当前的SOTA方法CEN【42】在相对FID指标上降低了29.8%。

In supplementary materials, we consider more modality inputs up to 4 which evaluates our group allocation strategy.

在补充材料中，我们考虑了多达4种模态输入，以评估我们的组分配策略。

Visualization and analysis. We provide qualitative results in Fig. 3, where we choose tough samples for comparison. The predictions with our TokenFusion obtain better natural patterns and are also richer in colors and details. In Fig. 4, we further visualize the process of TokenFusion of which tokens are learned to be fused under our l1 sparsity constraints. We observe that the tokens for fusion follow specific regularities. For example, the texture modality tends to preserve its advantage of detailed boundaries, and meanwhile seek facial tokens from the shade modality. In this sense, TokenFusion combines complementary properties of different modalities.

可视化与分析。 我们在图3中提供了定性结果，选择了一些难度较大的样本进行比较。使用我们的TokenFusion方法进行的预测获得了更自然的模式，并且在颜色和细节上更丰富。在图4中，我们进一步可视化了TokenFusion的过程，其中令牌在我们的l1稀疏性约束下学习进行融合。我们观察到，用于融合的令牌遵循特定的规律。例如，纹理模态倾向于保留其详细边界的优势，同时从阴影模态中获取面部令牌。从这个角度来看，TokenFusion结合了不同模态的互补特性。

4.2. RGB-Depth Semantic Segmentation

We then evaluate TokenFusion on another homogeneous scenario, semantic segmentation with RGB and depth as input, which is a very common multimodal task and numerous methods have been proposed towards better performance. We choose the typical indoor datasets, NYUDv2 [33] and SUN RGB-D [34]. For NYUDv2, we follow the standard 795/654 images for train/test splits to predict the standard 40 classes [10]. SUN RGB-D is one of the most challenging large-scale indoor datasets, and we adopt the standard 5,285/5,050 images for train/test of 37 semantic classes.然后，我们在另一种同质场景下评估TokenFusion，即使用RGB和深度作为输入的语义分割任务。这是一个非常常见的多模态任务，并且已经提出了许多方法以获得更好的性能。我们选择了典型的室内数据集NYUDv2【33】和SUN RGB-D【34】。对于NYUDv2，我们遵循标准的795/654图像用于训练/测试分割，以预测标准的40个类别【10】。SUN RGB-D是最具挑战性的大规模室内数据集之一，我们采用标准的5,285/5,050图像用于训练/测试37个语义类别。

Our models include TokenFusion (tiny) and TokenFusion (small), of which the single-modal backbones follow B2 and B3 settings of SegFormer [44]. Both tiny and small versions adopt the pretrained parameters on ImageNet-1k for initialization following [44]. Similar to our implementation in Sec. 4.1, we also adopt shared transformers and positional embeddings for RGB and depth inputs with individual LNs. We let the sparsity weight λ = 10−3 in Eq. (10) and the threshold θ = 2 × 10−2 in Eq. (7) for all these experiments.

我们的模型包括TokenFusion (tiny)和TokenFusion (small)，其单模态主干网络遵循SegFormer【44】的B2和B3设置。tiny和small版本都采用在ImageNet-1k上预训练的参数进行初始化，遵循【44】的做法。类似于我们在第4.1节中的实现，我们也为RGB和深度输入采用共享Transformer和位置嵌入，并使用各自独立的层归一化。对于所有这些实验，我们将稀疏权重λ设为10^−3（在公式(10)中）和阈值θ设为2 × 10^−2（在公式(7)中）。

Results. Results provided in Table 2 conclude that current transformer-based models equipped with our TokenFusion surpass SOTA models using CNNs. Note that we choose relatively light backbone settings (B1 and B2 as mentioned in Sec. 4.2). We expect that using larger backbones (e.g., B5) would yield better performance.

4.3. Vision and Point Cloud 3D Object Detection

视觉和点云3D目标检测
We further apply TokenFusion for fusing heterogeneous modalities, specifically, the 3D object detection task which has received great attention. We leverage 3D point clouds and 2D images to learn 3D and 2D detections, respectively, and both processes are learned simultaneously. We expect the involvement of 2D learning boosts the 3D counterpart.

我们进一步将TokenFusion应用于融合异质模态，特别是广受关注的3D目标检测任务。我们利用3D点云和2D图像分别学习3D和2D检测，这两个过程是同时进行的。我们期望2D学习的参与能够提升3D检测的效果。

We adopt SUN RGB-D [35] and ScanNetV2 [5] datasets. For SUN RGB-D, we follow the same train/test splits as in Sec. 4.2 and detect the 10 most common classes. For ScanNetV2, we adopt the 1,201/312 scans as train/test splits to detect the 18 object classes. All these settings (splits and detected target classes) follow current works [22, 28] for a fair comparison. Note that different from SUN RGB-D, ScanNetV2 provides multi-view images for each scene alongside the point cloud. We randomly sample 10 frames per scene from the scannet-frames-25k samples provided in [5].

我们采用了SUN RGB-D【35】和ScanNetV2【5】数据集。在SUN RGB-D数据集上，我们遵循与第4.2节相同的训练/测试划分，并检测10个最常见的类别。对于ScanNetV2，我们采用1,201/312的扫描作为训练/测试划分，以检测18个目标类别。所有这些设置（划分和检测目标类别）都遵循当前的工作【22, 28】，以确保公平比较。值得注意的是，与SUN RGB-D不同，ScanNetV2为每个场景提供了多视图图像以及点云。我们从【5】中提供的scannet-frames-25k样本中随机采样每个场景的10帧。

Our architectures for 3D detection and 2D detection follow GF [22] and YOLOS [8], respectively. We adopt the “L6, O256” or “L12, O512” versions of GF for the 3D detection branch. We combine GF with the tiny (Ti) and small (S) versions of YOLOS, respectively, and adopt mAP@0.25 and mAP@0.5 as evaluation metrics following [22, 28].
我们的3D检测和2D检测架构分别遵循GF【22】和YOLOS【8】。我们在3D检测分支中采用了GF的“L6, O256”或“L12, O512”版本。我们将GF分别与YOLOS的tiny (Ti)和small (S)版本结合，并采用mAP@0.25和mAP@0.5作为评估指标，遵循【22, 28】的标准。

Results. We provide results comparison in Table 3 and Table 4. The main comparison is based on the best results of five experiments between different methods, and numbers within the brackets are the average results. Besides, we perform intuitive multimodal experiments by appending the 3-channel RGB vectors to the sampled points after PointNet++ [30]. Such intuitive experiments are marked by the subscript * in both tables. We observe, however, that simply appending RGB information even leads to the performance drop, indicating the difficulty of such a heterogeneous fusion task. By comparison, our TokenFusion achieves new records on both datasets, which are remarkably superior to previous CNN/transformer models in terms of both metrics. For example, with TokenFusion, YOLOS-Ti can be utilized to boost the performance of GF by further 2.4 mAP@0.25 improvements, and using YOLOS-S brings further gains.

结果。 我们在表3和表4中提供了结果比较。主要比较基于不同方法之间五次实验的最佳结果，括号中的数字为平均结果。此外，我们通过在PointNet++【30】处理后的采样点上附加3通道RGB向量，进行直观的多模态实验。这些直观实验在两个表格中以下标*标记。然而，我们观察到，简单地附加RGB信息甚至导致性能下降，表明这种异质融合任务的难度。相比之下，我们的TokenFusion在两个数据集上都创下了新纪录，在各项指标上显著优于之前的CNN/Transformer模型。例如，使用TokenFusion后，YOLOS-Ti可以将GF的性能进一步提升2.4 mAP@0.25，使用YOLOS-S则带来了更大的提升。

Visualizations. Fig. 5 illustrates the comparison of detection results when using TokenFusion for multimodal interactions against individual learning. We observe that TokenFusion benefits the 3D detection part. For example, with the help of images, models with TokenFusion can locate 3D objects even with sparse or missing point data (second row). In addition, using images also benefits when the points of two objects are largely overlapped (first row). These observations demonstrate the advantages of our TokenFusion.

可视化。 图5展示了使用TokenFusion进行多模态交互与单独学习时的检测结果比较。我们观察到，TokenFusion对3D检测部分有明显的好处。例如，在图像的帮助下，使用TokenFusion的模型即使在点数据稀疏或缺失的情况下，也能准确定位3D对象（第二行）。此外，当两个对象的点大面积重叠时，使用图像也有所裨益（第一行）。这些观察结果展示了我们TokenFusion的优势。

✔️5. Ablation Study

在这里插入图片描述
l1-norm和令牌融合。 在表5中，我们展示了l1-norm和令牌融合的优势。我们还进行了随机令牌融合的实验。我们观察到，单独应用l1-norm对性能影响不大，但它对揭示融合令牌至关重要。我们的令牌融合与l1-norm结合后，相较于随机融合基线，取得了显著更好的性能。
在这里插入图片描述
RPA的评估。表6评估了第3.3节中提出的RPA。结果表明，仅使用RPA而不进行标记融合不会显著影响性能，但在与标记融合过程结合时，对对齐非常重要，特别是在3D检测任务中。

6. Conclusion

We propose TokenFusion, an adaptive method generally applicable for fusing vision transformers with homogeneous or heterogeneous modalities. TokenFusion exploits uninformative tokens and re-utilizes these tokens to strengthen the interaction of other informative multimodal tokens. Alignment relations of different modalities can be explicitly utilized due to our residual positional alignment and inter-modal projection. TokenFusion surpasses stateof-the-art methods on a variety of tasks, demonstrating its superiority and generality for multimodal fusion.

我们提出了TokenFusion，一种适用于融合视觉变换器与同质或异质模态的自适应方法。TokenFusion利用无信息的标记，并重新利用这些标记来增强其他有信息的多模态标记的交互。由于我们的残差位置对齐和模态间投影，能够明确地利用不同模态的对齐关系。TokenFusion在各种任务上超越了最先进的方法，展示了其在多模态融合中的优越性和通用性。

Acknowledgement

在这里插入图片描述

本研究得到了新一代人工智能重大项目（编号：2018AAA0102900）和中德合作研究项目“跨模态学习”（NSFC 62061136001/DFG TRR169）的资助。我们由衷感谢MindSpore、CANN和Ascend AI处理器在本研究中的支持。

⭕️ 附录

✔️图

图1

在这里插入图片描述
这张图展示了TokenFusion框架，用于处理同质的模态，例如RGB和深度信息。以下是对图中每个主要部分的详细解释：

图1. TokenFusion框架，用于同质模态的处理，以RGB和深度信息为例。两种模态都被送入共享的Transformer中，并且共享位置嵌入。

图中的主要组成部分：

Patches：
- 输入图像（RGB和深度图像）首先被分割成小块（Patches）。
- 每个小块包含一小部分的原始图像数据。
PEs（Position Embeddings）：
- 位置嵌入用于为每个小块（Patch）添加位置信息，以保持空间关系。
- 在图中，左侧的PEs用于最初的嵌入，右侧的“Residual PEs for alignment after fusion”用于在融合后的对齐。
Transformer Blocks：
- 核心计算单元是Transformer块，它们是现代深度学习模型（如BERT和Vision Transformer）的基础。
- Transformer块包括多头注意力机制（Multi-Head Attention）和前馈神经网络（FFN）。
- 多头注意力机制可以捕捉输入数据中的长距离依赖关系，而FFN用于进一步处理和提取特征。
Tokens：
- 输入数据通过Transformer块后，被处理成一系列的Token（标记），这些Token代表输入数据的高层次特征。
- 在图中，Token被标记为T1, T2, …, Tn，分别表示不同的Token。
Token Fusion：
- Token Fusion部分用于将来自不同模态（如RGB和深度）的Token进行融合。
- 在图中表示为交叉的线，“X”表示融合的操作。
- 通过融合，模型可以综合利用不同模态的信息，以提高整体的理解和判断能力。
Residual PEs for alignment after fusion：
- 在融合之后，残差位置嵌入（Residual PEs）用于对齐不同模态的Token。
- 这些位置嵌入帮助保持融合后的Token的空间一致性。
xL（重复L次）：
- 图中的Transformer块和Token Fusion部分会重复L次，以逐步细化和提取特征。
- 这种重复结构有助于模型在不同层次上捕捉输入数据的复杂特性。

总结

TokenFusion框架的主要步骤如下：

输入处理：将RGB和深度图像分割成小块（Patches）。
位置嵌入：为每个小块添加位置嵌入（PEs），以保持空间信息。
Transformer处理：通过多层的Transformer块处理输入数据，提取高层次特征。
Token融合：将不同模态的Token进行融合，综合利用多模态信息。
对齐和重复：使用残差位置嵌入对齐融合后的Token，并重复上述步骤L次，以逐步细化特征。

这种设计使得TokenFusion框架可以高效地处理和融合多模态信息，增强模型的性能和理解能力。

图2

在这里插入图片描述

这张图展示了TokenFusion框架，用于处理异质模态，例如点云和图像。以下是对图中每个主要部分的详细解释：

图2. TokenFusion框架，用于处理异质模态（点云和图像）。每种模态被送入独立的Transformer模型，并各自拥有独立的位置嵌入。还需要额外的模态间投影（Proj），这与同质模态的融合不同。

图中的主要组成部分：

Image：
- 输入的一部分是图像，这个图像将会被处理成小块（Patches）。
Point Cloud：
- 另一部分输入是点云，即三维空间中的点的集合，表示物体的三维形状和结构。
Sampled Point Cloud：
- 点云经过采样和分块处理，生成一系列点的集合（Points）。
Patches：
- 输入图像被分割成小块（Patches），每个小块包含一小部分图像数据。
Points：
- 点云数据中的点被处理成一系列点（Points），每个点代表三维空间中的一个位置。
PEs（Position Embeddings）：
- 每个小块（Patch）和点（Point）都有自己的位置嵌入（PEs），以保持空间关系。
- 在图中，左侧的PEs用于最初的嵌入，右侧的“Residual PEs for alignment after fusion”用于在融合后的对齐。
Transformer Blocks：
- 图像和点云分别通过各自的Transformer块。
- Transformer块包括多头注意力机制（Multi-Head Attention）和前馈神经网络（FFN）。
- 多头注意力机制可以捕捉输入数据中的长距离依赖关系，而FFN用于进一步处理和提取特征。
Tokens：
- 图像和点云数据分别通过Transformer块后，被处理成一系列的Token（标记），这些Token代表输入数据的高层次特征。
- 在图中，Token被标记为T1, T2, …, Tn，分别表示不同的Token。
Token Fusion：
- Token Fusion部分用于将图像和点云的Token进行融合。
- 在图中表示为交叉的线，“X”表示融合的操作。
- 通过融合，模型可以综合利用不同模态的信息，以提高整体的理解和判断能力。
Proj（Projection）：
- 融合过程中需要额外的模态间投影（Proj），以将不同模态的特征映射到共同的特征空间。
- 在图中用“Proj”表示，这个步骤是异质模态融合中所需的额外步骤。
Residual PEs for alignment after fusion：
- 在融合之后，残差位置嵌入（Residual PEs）用于对齐不同模态的Token。
- 这些位置嵌入帮助保持融合后的Token的空间一致性。
FFN：
- 融合后的Token通过前馈神经网络（FFN），进一步处理和提取特征。
xL（重复L次）：
- 图中的Transformer块和Token Fusion部分会重复L次，以逐步细化和提取特征。
- 这种重复结构有助于模型在不同层次上捕捉输入数据的复杂特性。

总结

TokenFusion框架的主要步骤如下：

输入处理：将图像分割成小块（Patches），将点云数据处理成点（Points）。
位置嵌入：为每个小块和点添加位置嵌入（PEs），以保持空间信息。
Transformer处理：图像和点云分别通过各自的Transformer块提取高层次特征。
Token融合：将图像和点云的Token进行融合，并使用模态间投影（Proj）将特征映射到共同特征空间。
对齐和重复：使用残差位置嵌入对齐融合后的Token，并重复上述步骤L次，以逐步细化特征。
前馈神经网络：融合后的Token通过FFN进一步处理和优化。

这种设计使得TokenFusion框架可以高效地处理和融合异质模态的信息（如图像和点云），增强模型的性能和理解能力。

图3

在这里插入图片描述
这张图（Figure 3）展示了多模态图像到图像翻译任务中的不同方法的可视化比较结果。具体来说，它比较了使用单一模态输出、最新技术（State-of-the-art）的CNN融合方法（CEN）、基于特征连接的直观变换器融合方法，以及本文提出的TokenFusion方法在图像翻译任务中的表现。任务是从Texture（质地）和Shade（阴影）这两种输入模态转换成RGB图像。下面是对图像的详细描述和翻译：

图3：图像到图像翻译的比较（Texture+Shade→RGB）

分辨率：所有输入/输出图像的分辨率都是256×256像素。
单模态输出：第三列和第四列显示了使用单一模态（Input-1或Input-2）的预测结果。这意味着模型只使用Texture或Shade模态来进行图像翻译。
CEN方法：第五列展示了使用CEN方法的预测结果，这是一种CNN融合技术，通过融合Texture和Shade模态来生成RGB图像。
特征连接的变换器融合：第六列显示了使用特征连接的变换器融合方法的预测结果。这种方法将不同模态的特征在变换器的每一层之前进行连接。
TokenFusion方法：第七列展示了本文提出的TokenFusion方法的预测结果。这种方法通过动态检测并替换不包含有用信息的令牌（Tokens），并利用残差位置对齐来显式地利用不同模态间的对齐关系。
真实情况（Ground truth）：第一列和第二列显示了真实情况的图像，作为评估其他方法性能的基准。

翻译：

单模态输出：使用单一模态的输出结果。
多模态输出：使用多种模态的输出结果。
变换器输出：仅从Input-1或Input-2模态的变换器输出。
最新技术：使用CEN方法的变换器融合。
基于特征连接的变换器融合：直观的变换器融合方法，通过特征连接实现。
TokenFusion：我们的方法，通过TokenFusion实现变换器融合。

图解说明：

图中的每一行可能代表了一个单独的样本或场景。
每一列代表了一个不同的方法或基线，用于生成RGB图像。
颜色和细节的差异可以帮助我们直观地评估不同方法在图像翻译任务中的性能。

通过这种可视化比较，我们可以看到TokenFusion方法在生成自然模式、颜色丰富度和细节方面的优势。这表明TokenFusion能够更好地结合不同模态的信息，生成更高质量的图像翻译结果。

图4

在这里插入图片描述

这张图（Figure 4）展示了TokenFusion方法在多模态图像翻译任务中融合令牌（tokens）的详细过程。具体来说，它展示了在验证数据集上，TokenFusion如何在不同的阶段将来自不同模态的令牌进行融合，以生成最终的多模态输出。以下是对图像的翻译和详细解释：

图4：TokenFusion中融合令牌的示例

Fused tokens：表示在TokenFusion过程中被融合的令牌。
Multimodal output：表示通过融合不同模态的令牌产生的最终多模态输出。
Input-1 和 Input-2：表示两种不同的输入模态。
Ground truth：表示真实情况的图像，作为评估生成图像的基准。
(stage 1) 和 (stage 2)：表示TokenFusion过程中的两个不同阶段。

翻译：

融合的令牌：在TokenFusion中融合的令牌。
多模态输出：由TokenFusion生成的最终图像。
输入-1 和输入-2：两种不同的输入数据模态。
真实情况：实际的图像，作为比较生成图像的参考标准。
（阶段 1）和（阶段 2）：分别表示变换器在第一阶段和第二阶段的最后几层。

图解说明：

第一行：展示了从Texture（质地）和Shade（阴影）模态到RGB图像的翻译过程。这包括两个阶段的融合令牌和最终的多模态输出与真实情况的对比。
第二行：展示了从Shade（阴影）和RGB模态到Normal（法线）图像的翻译过程。同样，展示了两个阶段的融合令牌和最终输出与真实情况的对比。
分辨率：所有图像的分辨率都是256×256像素。
最佳查看方式：推荐使用彩色显示并放大查看，以更好地观察细节。

通过这种可视化，我们可以观察到TokenFusion如何在不同阶段选择性地融合来自不同模态的令牌，以及这种融合如何影响最终的图像输出。例如，在Texture+Shade→RGB的任务中，可能在第一阶段融合了更多来自Texture模态的细节令牌，而在第二阶段则可能融合了更多来自Shade模态的令牌，以增强图像的深度和阴影效果。同样，在Shade+RGB→Normal的任务中，TokenFusion可能在不同阶段融合了来自Shade和RGB模态的令牌，以生成更准确的法线图像。

这种可视化结果有助于我们理解TokenFusion如何通过动态地选择和融合不同模态中的信息来提高图像翻译任务的性能。

图5

这张图（Figure 5）展示了在异构模态数据（包括点云和图像）上，使用TokenFusion方法与不使用TokenFusion方法在同时学习3D对象检测和2D对象检测任务时的性能对比。以下是对图像的翻译和详细解释：
在这里插入图片描述
图5：在异构模态数据上的3D和2D对象检测结果可视化

2D prediction：2D预测结果，指的是在2D图像上进行的对象检测。
3D prediction：3D预测结果，指的是在3D空间中进行的对象检测，通常基于点云数据。
w/o TokenFusion：没有使用TokenFusion方法时的预测结果。
with TokenFusion：使用TokenFusion方法时的预测结果。
Ground Truth：真实情况的图像，作为评估预测准确性的基准。

翻译：

2D预测：没有TokenFusion和使用TokenFusion的2D对象检测预测结果。
3D预测：没有TokenFusion和使用TokenFusion的3D对象检测预测结果。
真实情况：实际的2D和3D对象检测结果，作为比较预测的参考标准。

图解说明：

图中展示了在验证数据集上的一些示例，包括2D和3D对象检测的预测结果，以及它们与真实情况的对比。
左侧列：展示了没有使用TokenFusion方法时的2D和3D对象检测结果。
右侧列：展示了使用TokenFusion方法时的2D和3D对象检测结果。
在每一对预测结果旁边，都有相应的真实情况图像，以便于比较。
性能提升：根据图的描述，TokenFusion方法主要提升了3D对象检测的结果。这可能是因为TokenFusion能够更好地融合来自2D图像和3D点云的信息，从而提高检测的准确性。
可视化效果：通过比较有无TokenFusion的预测结果，我们可以直观地看到TokenFusion在提高对象检测精度方面的作用，尤其是在3D对象检测任务中。

这张图的可视化结果有助于我们理解TokenFusion如何在异构模态数据上促进不同类型对象检测任务的性能提升，尤其是在需要结合2D图像和3D点云信息的复杂场景中。

图6

在这里插入图片描述

这张图（Figure 6）是对主论文中图4的补充，展示了TokenFusion过程中令牌融合的额外示例，这些示例是在Taskonomy验证数据集上进行的。以下是对图像的翻译和详细解释：

图6：TokenFusion过程中令牌融合的附加示例

Fused tokens：表示在TokenFusion过程中融合的令牌。
Multimodal output：表示通过融合不同模态生成的最终多模态输出。
Input-1 和 Input-2：表示两种不同的输入模态。
Ground truth：表示实际图像，用作评估生成图像的参考标准。
(stage 1) 和 (stage 2)：分别表示变换器第一阶段和第二阶段的最后几层。

翻译：

融合的令牌：TokenFusion中在不同阶段融合的令牌。
多模态输出：由不同模态融合生成的最终结果。
输入-1 和输入-2：两种不同的输入数据模态。
真实情况：实际的图像，作为评估生成图像准确性的基准。
（阶段 1）和（阶段 2）：变换器在第一和第二阶段的输出。

图解说明：

第一行：展示了从Texture（质地）和Shade（阴影）模态到RGB图像的翻译过程。展示了两个阶段的融合令牌和最终多模态输出与真实情况的对比。
第二行：展示了从Shade（阴影）和RGB模态到Normal（法线）图像的翻译过程。同样，展示了两个阶段的融合令牌和最终输出与真实情况的对比。
分辨率：所有图像的分辨率都是256×256像素。
最佳查看方式：推荐使用彩色显示并放大查看，以更好地观察细节。
过程描述：图中展示了TokenFusion如何在变换器的不同阶段选择性地融合来自不同模态的令牌。例如，在Texture+Shade→RGB任务中，可能在第一阶段更多地融合了Texture模态的令牌，而在第二阶段则可能融合了Shade模态的令牌，以增强图像的颜色和细节。在Shade+RGB→Normal任务中，TokenFusion可能在两个阶段都融合了来自Shade和RGB模态的令牌，以生成更准确的法线图像。

这张图的可视化结果有助于我们理解TokenFusion如何在不同阶段动态地选择和融合不同模态中的信息，以及这种融合如何影响最终的图像翻译质量。通过这种直观的展示，我们可以更好地把握TokenFusion方法在图像翻译任务中的应用效果。
#✔️ 表

表1

在这里插入图片描述
这张表（Table 1）展示了多模态图像到图像翻译任务的结果，使用不同的模型和方法。表中列出了几种不同的输入模态组合，以及使用卷积神经网络（CNN）和变换器（Transformer）基础模型的结果。以下是对表格的翻译和详细解释：

表1：Taskonomy上多模态图像到图像翻译的结果

评价指标：对于RGB图像预测，使用Fréchet Inception Distance (FID) 和 Kernel Inception Distance (KID)；对于其他预测，使用平均绝对误差 (MAE) 和均方误差 (MSE)。所有指标的数值越低表示性能越好。

输入模态组合	方法	→RGB FID/KID	→Normal MAE/MSE	→Shade MAE/MSE	→Depth MAE/MSE
Shade+Texture	Concat [42]	78.82/3.13	-	1.34/2.85	-
Depth+Normal		99.08/4.28	1.26/2.76	-	1.28/2.02
RGB+Shade	Self-Att. [39, 42]	73.87/2.46	-	1.18/1.76	-
RGB+Normal	Align. [36, 42]	92.30/4.20	1.52/3.25	-	1.41/2.21
RGB+Edge	CEN [42]	62.63/1.65	0.30/0.70	-	-
	Concat (Ti)	76.13/2.85	-	1.52/3.15	1.33/2.20
Transformer-based models	Ours (Ti)	50.40/1.03	0.73/1.83	0.95/1.54	0.21/0.57
	Concat (S)	72.55/2.39	-	1.18/2.73	1.30/2.07
	Ours (S)	43.92/0.94	0.58/1.51	0.79/1.33	0.16/0.47

翻译：

Shade+Texture：阴影+质地 (输入模态组合)
Depth+Normal：深度+法线
RGB+Shade：RGB+阴影
RGB+Normal：RGB+法线
RGB+Edge：RGB+边缘
Concat：特征连接模型
Self-Att.：自注意力模型
Align.：对齐模型
CEN：一种特定的融合方法
Ti：小型变换器模型
S：大型变换器模型
Ours：指本文提出的TokenFusion方法

讲解：

表中列出了不同的模态组合，例如"Shade+Texture"表示使用阴影和质地两种模态作为输入来生成RGB图像。
每组模态组合都有不同的模型来处理，包括基于CNN的模型和基于Transformer的模型。
"Concat"代表简单的特征连接方法，"Self-Att."代表自注意力机制，"Align."可能代表某种对齐机制，而"CEN"是另一种特定的融合方法。
"Ours (Ti)"和"Ours (S)"代表本文提出的TokenFusion方法在小型和大型变换器模型上的应用。
从表中可以看出，TokenFusion方法在多数情况下都取得了更低的误差值，这意味着它在图像翻译任务中的表现优于其他列出的方法。

总的来说，这张表展示了TokenFusion方法在多模态图像翻译任务中的有效性，通过与其他现有方法的比较，证明了其在生成高质量图像方面的优越性能。

表2

在这里插入图片描述
这张表（Table 2）展示了在NYUDv2和SUN RGB-D数据集上，不同模型在RGB（红绿蓝）和深度（D）图像的语义分割任务上的性能比较。以下是对表格的翻译和详细解释：

表2：在NYUDv2和SUN RGB-D数据集上的RGB和深度语义分割的比较结果

评价指标：包括像素准确度（Pixel Acc.）、平均准确度（mAcc.）和平均交并比（mIoU），这些指标都是以百分比 (%) 表示。这些指标用来衡量模型在语义分割任务上的性能，数值越高表示性能越好。

方法	输入	NYUDv2 Pixel Acc.	NYUDv2 mAcc.	NYUDv2 mIoU	SUN RGB-D Pixel Acc.	SUN RGB-D mAcc.	SUN RGB-D mIoU
FCN-32s [23]	RGB	60.0	42.2	29.2	68.4	41.1	29.0
RefineNet [19]	RGB	74.4	59.6	47.6	81.1	57.7	47.0
FuseNet [12]	RGB+D	68.1	50.4	37.9	76.3	48.3	37.3
SSMA [39]	RGB+D	75.2	60.5	48.7	81.0	58.1	45.7
RDFNet [18]	RGB+D	76.0	62.8	50.1	81.5	60.1	47.7
AsymFusion [43]	RGB+D	77.0	64.0	51.2	-	-	-
CEN [42]	RGB+D	77.7	65.0	52.5	83.5	63.2	51.1
Transformer-based models
w/o fusion (Ti)	RGB	75.2	62.5	49.7	82.3	60.6	47.0
Concat (Ti)	RGB+D	76.5	63.4	50.8	82.8	61.4	47.9
Ours (Ti)	RGB+D	78.6	66.2	53.3	84.0	63.3	51.4
w/o fusion (S)	RGB	76.0	63.0	50.6	82.9	61.3	48.1
Concat (S)	RGB+D	77.1	63.8	51.4	83.5	62.0	49.0
Ours (S)	RGB+D	79.0	66.9	54.2	84.7	64.1	53.0

翻译：

Pixel Acc.：像素准确度
mAcc.：平均准确度
mIoU：平均交并比
RGB：红绿蓝图像
D：深度图像
FCN-32s：一种基于CNN的语义分割模型
RefineNet：一种基于CNN的多路径细化网络
FuseNet：一种融合CNN架构的模型
SSMA：一种自监督模型适应多模态语义分割的模型
RDFNet：一种多级残差特征融合网络
AsymFusion：一种非对称融合模型
CEN：一种深度多模态融合模型
w/o fusion：没有融合
Concat：连接
(Ti)：小型模型
(S)：大型模型
Ours：指本文提出的模型

讲解：

表中列出了基于CNN和基于Transformer的不同模型，以及它们在RGB图像、深度图像或两者结合时的性能。
"w/o fusion"表示模型没有使用特征融合技术，而"Concat"表示模型使用了简单的特征连接方法。
"Ours"代表本文提出的模型，其中可能使用了TokenFusion或其他创新方法。
在NYUDv2和SUN RGB-D数据集上，"Ours (S)"模型在结合RGB和深度图像时，在所有评价指标上都取得了最佳性能，表明本文提出的方法在语义分割任务上的有效性和优越性。

总的来说，这张表展示了不同模型在两个标准数据集上的性能对比，突出了本文提出方法在多模态语义分割任务中的先进性。

表3

在这里插入图片描述
这张表（Table 3）列出了在SUN RGB-D数据集上，针对3D对象检测任务的不同模型的性能比较。这些模型分为基于CNN（卷积神经网络）的模型和基于Transformer的模型，并展示了它们在不同输入条件下的表现。以下是对表格的翻译和详细解释：

表3：SUN RGB-D数据集上3D对象检测的比较结果

评价指标：表格中使用了mAP@0.25和mAP@0.5作为评价指标，分别表示在0.25和0.5的IoU（交并比）阈值下的平均精度。这些指标用来衡量模型检测3D对象的准确性，数值越高表示性能越好。

方法	骨干网络	输入	mAP@0.25	mAP@0.5
VoteNet [29]	PointNet++	点云(Points)	59.1	35.8
VoteNet [29]*	PointNet++	点云+RGB(Points+RGB)	58.0	34.3
MLCVNet [31]	PointNet++	点云(Points)	59.8	-
HGNet [4]	GU-net	点云(Points)	60.1	39.0
H3DNet [46]	4 × PointNet++	点云(Points)	61.6	-
imVoteNet [27]	PointNet++	点云+RGB(Points+RGB)	63.4	-
GF [22] (L6, O256)	PointNet++	点云(Points)	63.0 (62.6)	45.2 (44.4)
GF [22] (L6, O256)*	PointNet++	点云+RGB(Points+RGB)	62.1 (61.0)	42.7 (41.9)
Ours (L6, O256; Ti)	PointNet++	点云+RGB(Points+RGB)	64.5 (64.2)	47.8 (47.3)
Ours (L6, O256; S)	PointNet++	点云+RGB(Points+RGB)	64.9 (64.4)	48.3 (47.7)

翻译：

mAP@0.25 / mAP@0.5：在0.25和0.5的IoU阈值下的平均精度。
Points：仅使用点云数据作为输入。
Points+RGB：同时使用点云数据和RGB图像数据作为输入。
VoteNet, MLCVNet, HGNet, H3DNet, imVoteNet：这些都是基于CNN的3D对象检测模型。
GF：一种基于Transformer的3D对象检测模型。
Ours：指的是论文中提出的模型。
(L6, O256)：表示模型使用的是具有6层（L6）和256个输出通道（O256）的PointNet++骨干网络。
Ti / S：可能表示模型的不同配置或大小（例如，Ti可能指小型模型，而S可能指标准模型）。
*****：表示在点云数据上附加了RGB信息，这是根据4.3节的描述进行的。

讲解：

表中列出了不同模型在仅使用点云数据和同时使用点云数据与RGB数据时的性能。
基于CNN的模型（VoteNet, MLCVNet, HGNet, H3DNet, imVoteNet）在点云数据上的表现被列出，其中一些模型在加入RGB数据后性能有所变化。
基于Transformer的模型（GF）也展示了在仅使用点云数据和结合RGB数据时的性能。
“Ours” 表示论文中提出的模型，它在点云+RGB的输入配置下表现最佳，无论是在mAP@0.25还是mAP@0.5的评价指标下。
括号内的数据表示平均结果，而非括号内的数据表示最佳结果。

总的来说，这张表展示了在3D对象检测任务中，结合使用点云和RGB数据可以提高模型的性能，而且论文中提出的模型在这一任务上取得了最先进的结果。

表4

在这里插入图片描述
这张表（Table 4）展示了在ScanNetV2数据集上，不同模型在3D对象检测任务上的性能比较。这些模型包括基于CNN（卷积神经网络）的模型和基于Transformer的模型，并根据它们使用的骨干网络（Backbone）和输入数据类型进行了分类。评价指标是mAP@0.25和mAP@0.5，即在0.25和0.5的IoU（交并比）阈值下的平均精度。

翻译：

方法	骨干网络	输入	mAP@0.25	mAP@0.5
HGNet [4]	GU-net	点云(Points)	61.3	34.4
GSDN [11]	MinkNet	点云(Points)	62.8	34.8
3D-MPA [7]	MinkNet	点云(Points)	64.2	49.2
VoteNet [29]	PointNet++	点云(Points)	62.9	39.9
MLCVNet [31]	PointNet++	点云(Points)	64.5	41.4
H3DNet [46]	PointNet++	点云(Points)	64.4	43.4
H3DNet [46]	4 × PointNet++	点云(Points)	67.2	48.1
GF [22] (L6, O256)	PointNet++	点云(Points)	67.3 (66.3)	48.9 (48.5)
GF [22] (L6, O256)*	PointNet++	点云+RGB(Points+RGB)	66.3 (65.7)	47.5 (47.0)
GF [22] (L12, O512)	PointNet++w2 ×	点云(Points)	69.1 (68.6)	52.8 (51.8)
GF [22] (L12, O512)*	PointNet++w2 ×	点云+RGB(Points+RGB)	68.2 (67.6)	50.3 (49.4)
Ours (L6, O256; Ti)	PointNet++	点云+RGB(Points+RGB)	68.8 (68.0)	51.9 (51.2)
Ours (L12, O512; S)	PointNet++w2 ×	点云+RGB(Points+RGB)	70.8 (69.8)	54.2 (53.6)

讲解：

方法：列出了不同模型的名称和引用。
骨干网络：模型使用的主网络结构，如GU-net、MinkNet、PointNet++等。
输入：模型接受的输入数据类型，包括仅点云（Points）和点云加RGB数据（Points+RGB）。
mAP@0.25 / mAP@0.5：在0.25和0.5的IoU阈值下的平均精度，用来衡量模型检测3D对象的性能。
括号内数字：表示平均结果，而非括号内为最佳结果。
星号(*)：可能表示模型使用了某种特定的技术或融合策略。

翻译关键词：

mAP@0.25 / mAP@0.5：在0.25和0.5的IoU阈值下的平均精度。
Points：点云数据。
Points+RGB：点云数据加上颜色信息（RGB）。
L6, O256 / L12, O512：分别表示模型的层数和输出维度，例如L6表示6层，O256表示输出维度为256。

结果分析：

从表中可以看出，使用Transformer作为骨干网络的模型（如GF和Ours）在3D对象检测任务上表现优于传统的基于CNN的模型。
在Transformer模型中，增加模型的大小（如从L6, O256到L12, O512）可以进一步提高性能。
融合RGB信息（Points+RGB）通常可以提升模型性能，这表明多模态数据融合有助于提高3D对象检测的准确性。
论文中提出的模型（Ours）在两种尺寸配置下均取得了最好的结果，显示出该方法在3D对象检测任务中的有效性。

表5

在这里插入图片描述

这张表（Table 5）展示了在NYUDv2数据集上的RGB-深度分割任务以及在SUN RGB-D数据集上的3D检测任务中，使用l1-范数和不同融合策略对性能的影响。以下是对表格的翻译和详细解释：

表5：l1-范数和令牌融合的有效性

评价指标：包括像素准确度（Pixel Acc.）、平均准确度（mAcc.）、平均交并比（mIoU）、以及在0.25和0.5的IoU阈值下的平均精度（mAP@0.25和mAP@0.5）。数值越高表示性能越好。

融合策略	像素准确度	平均准确度	平均交并比	mAP@0.25	mAP@0.5
无（Baseline）	75.2	62.5	49.7	62.8	45.1
随机融合 (10%)	75.6	63.0	50.1	62.3	44.5
随机融合 (30%)	74.2	61.0	48.2	59.5	42.4
使用l1-范数（V）	75.0	62.5	49.5	62.6	44.9
使用l1-范数和RPA（V with RPA）	78.6	66.2	53.3	64.9	48.3

翻译：

Seg. (NYUDv2)：指在NYUDv2数据集上的RGB-深度分割任务。
3D det. (SUN RGB-D)：指在SUN RGB-D数据集上的3D检测任务。
l1-norm：l1范数，一种正则化技术。
Fusion strategy：融合策略，指不同模态数据结合的方法。
Pixel Acc.：像素准确度。
mAcc.：平均准确度。
mIoU：平均交并比。
mAP@0.25 / mAP@0.5：在0.25和0.5的IoU阈值下的平均精度。
Random (10% / 30%)：随机融合策略，表示随机选择10%或30%的令牌进行融合。
V (with RPA)：使用l1-范数并结合残差位置对齐（Residual Positional Alignment, RPA）的融合策略。

讲解：

表中展示了不同融合策略对RGB-深度分割和3D检测任务性能的影响。
基线模型（无融合策略）在所有评价指标上的表现被列出作为参考。
随机融合策略显示了当随机选择一定比例的令牌进行融合时的性能变化。
使用l1-范数的融合策略（V）在一定程度上提高了性能，但不如结合RPA时的性能提升显著。
结合l1-范数和RPA的融合策略（V with RPA）在所有评价指标上都取得了最佳性能，表明这种融合策略在提高分割和检测任务的性能方面是非常有效的。

总的来说，这张表强调了在多模态学习中，合适的融合策略对于提升模型性能的重要性，特别是l1-范数结合残差位置对齐技术在提高3D对象检测和语义分割任务中的有效性。

表6

在这里插入图片描述
这张表（Table 6）展示了在NYUDv2数据集上的RGB-深度分割任务和SUN RGB-D数据集上的3D检测任务中，残差位置对齐（Residual Positional Alignment, RPA）结合l1-范数正则化对性能的影响。以下是对表格的翻译和详细解释：

表6：RPA提出的效果

评价指标：包括像素准确度（Pixel Acc.）、平均准确度（mAcc.）、平均交并比（mIoU）、以及在0.25和0.5的IoU阈值下的平均精度（mAP@0.25和mAP@0.5）。数值越高表示性能越好。

任务/数据集	RPA (无 l1-norm)	(with l1-norm)	V (RPA + l1-norm)
Seg. (NYUDv2)	Pixel Acc.	mAcc.	mIoU
	75.2	62.5	49.7
3D det. (SUN RGB-D)	mAP@0.25	mAP@0.5
	62.8	45.1
	75.7	62.9	50.3
	78.3	65.8	52.9
	78.6	66.2	53.3

翻译：

Token fusion：令牌融合。
Seg. (NYUDv2)：指在NYUDv2数据集上的语义分割任务。
3D det. (SUN RGB-D)：指在SUN RGB-D数据集上的3D对象检测任务。
RPA：残差位置对齐，一种在融合过程中保持位置信息的技术。
(with l1-norm)：表示同时使用了l1-范数正则化。
Pixel Acc.：像素准确度。
mAcc.：平均准确度。
mIoU：平均交并比。
mAP@0.25 / mAP@0.5：在0.25和0.5的IoU阈值下的平均精度。

讲解：

表中列出了在不使用l1-范数正则化（RPA (无 l1-norm)）、使用l1-范数正则化（(with l1-norm)）和同时使用RPA和l1-范数正则化（V (RPA + l1-norm)）三种情况下的性能。
从表中可以看出，使用l1-范数正则化可以在一定程度上提高性能，尤其是在3D检测任务中。
当同时使用RPA和l1-范数正则化时，性能得到了进一步提升，这表明这两种技术的结合对于提高任务性能是有效的。
在NYUDv2数据集的分割任务中，结合使用RPA和l1-范数正则化（V (RPA + l1-norm)）的像素准确度、平均准确度和平均交并比均有所提高。
在SUN RGB-D数据集的3D检测任务中，同样的技术组合在mAP@0.25和mAP@0.5指标上也显示出了性能提升。

总的来说，这张表强调了RPA和l1-范数正则化在多模态学习中的重要性，以及它们对于提高分割和检测任务性能的积极作用。