一,名词解释
1,MAE,全称是Mean Absolute Error,即平均绝对值误差,它表示预测值和观测值之间绝对误差的平均值
2,模态,是反应结构自身的固有特性,包含频率和振型;由结构的质量和刚度矩阵决定。
3,掩码图像建模 (MIM) 是一种新兴的自监督预训练方法,它的基本思想:输入图像的一部分被随机屏蔽,然后通过预训练任务重建。
二,解读
1,对图像和点输入进行标记,并将来自不同模态的标记关联起来,将点标记投射到图像补丁中,明确地对齐它们之间的掩蔽关系。
2,第一个提出用点云和RGB模式与三种新方案交互的预训练MAE。
3,引入了互补的跨模态掩蔽策略、共享解码器和跨模态重构,促进更多的交互多模态学习。
4,设计了一个MAE结构的多模态学习框架,该框架结合了投影对齐,以实现更多的交互式多模态学习。
5,使用的编码器由两个模块组成:模态特定编码器和跨模态编码器。前者用于更好地提取特定于模态的特征,后者用于跨模态特征之间的交互。
6,有额外共享解码器层,目的最终是让编码器更多地关注特征提取,而忽略模态交互的细节。
7,PiMAE联合学习3D和2D特征,所提出的跨模态相互作用有助于模型利用两种模态的信息