本文主要研究如何为多模态数据生成一个有区别的共享流形。共享流形以这样的方式生成,即来自所有模态的类的样本被映射为彼此靠近,而不相似的类被推开。该结构包含一个三位一体的自动编码器和一个标准的自动编码器。每个自动编码器采用单独的模态作为其输入。提出了一个基于三元组丢失的目标函数,该目标函数鼓励两个自动编码器的潜在空间对于相同的类是相似的,而对于不同的类是不相似的。为了进一步使两种模态的潜在空间彼此接近,我们提出了一个相似性增强(SE)项。在训练之后,得到的潜在空间嵌入是有很大区别的。为了分类,我们联合所有模态的潜在空间,并应用KNN和浅神经网络。为了进行传感器转换,我们提出了一个回归网络来从可用传感器的潜在空间预测缺失传感器的潜在空间。由于潜在空间已经被聚集,因此该过程变得明显更容易。一旦预测了缺失传感器的潜在空间,就可以对其进行重构以生成全尺度数据。
CoMMANet: Shared Manifold Generation Architecture 共享流形生成体系结构
第一自动编码器是在传感器A上实现的三联自动编码器。传感器B的自动编码器是标准自动编码器。
训练标准三元组网络的目标是最小化目标函数。
The multimodal triplet loss function contains two terms: intrasensor triplet loss and intersensor triplet loss.
传感器内triplet loss term 的影响,在应用该项之后,网络使来自传感器A的锚嵌入和正嵌入彼此接近,并推开传感器A负样本的嵌入.
传感器间triplet loss term 的影响,在应用该项之前,只有传感器A嵌入被聚类。在应用该项之后,传感器B的anchor也移动靠近传感器A的anchor.
This term consists of reconstruction loss terms of all the autoencoders
The three autoencoders are from the Triplet network for sensor A.The fourth autoencoder is for sensorB.
在使用损失项LT后,两个传感器的嵌入都聚集在共享流形中,但LT项不足以紧密聚集不同传感器的嵌入.异构模态的嵌入难以在共享流形中变得更接近,因为它们具有不同的数据结构并且从感兴趣区域(ROI)捕获不同种类的信息。因此,为了增强聚类过程,在损失函数中引入SE项:
附加传感器映射到共享流形的架构。通过减小新传感器的嵌入和预训练编码器的嵌入之间的距离,使它们更接近。
K is the number of training samples.传感器C嵌入被映射为接近传感器A嵌入。
共享嵌入分类模型(Shared embeddings classification model)
设SA和SC是两个传感器,其中SC是缺失的传感器。两个传感器的群集嵌入将在共享流形中彼此靠近。在理想情况下,传感器将是同质的,并且它们的嵌入将完全重叠。然而,如果传感器是异构的,则由于数据结构和由不同传感器捕获的信息的变化,嵌入将不会完全重叠。为此,本文提出了一种浅层回归网络,利用已有的传感器预测缺失传感器的嵌入。
缺失传感器嵌入预测/传感器平移模型 (Missing sensor's embeddings prediction/sensor translation model)
Shared Manifold Generation Architecture(SMGA)是一种深度学习模型,用于生成多个目标域的图像。SMGA的主要思想是通过共享编码器和生成器来实现这一目标。
SMGA的工作机制可以简单概括为以下步骤:
输入图像:首先,将输入图像(源域)传递给编码器,以将其转换为潜在空间中的表示。潜在空间是一个低维空间,其中相似的图像表示在空间中相互靠近。
共享编码器:SMGA的编码器是共享的,它将输入图像转换为潜在空间中的表示。由于共享编码器,每个域的输入图像都可以转换为相同的潜在表示。
生成器:SMGA的生成器采用编码器生成的潜在表示作为输入,并将其转换为目标域中的图像。生成器中的参数是针对所有目标域共享的,这使得它能够生成多个目标域的图像。
损失函数:SMGA的损失函数由两个部分组成。第一部分是重构损失,它测量重构图像与原始图像之间的差异。第二部分是域损失,它鼓励在潜在空间中表示相同域的图像之间存在较小的距离。
优化器:SMGA使用梯度下降算法来最小化损失函数。通过反向传播算法,可以计算损失函数相对于生成器和编码器的梯度,并使用优化器来更新它们的参数。
通过这些步骤,SMGA可以生成多个目标域的图像,例如将夏季场景转换为冬季场景或将猫的图像转换为狗的图像。由于SMGA共享编码器和生成器的特点,它可以使用少量的目标域图像来生成高质量的图像,这使得它在图像合成和风格转换等任务中得到广泛应用。
而基于Triplet Network的Shared Manifold Generation Architecture(TM-SMGA)是Shared Manifold Generation Architecture(SMGA)的一种改进版本,它通过引入三元组损失来提高生成图像的质量。
与SMGA相似,TM-SMGA也具有共享编码器和生成器的架构。共享编码器将输入图像转换为潜在空间中的表示,而生成器将潜在表示转换为目标域中的图像。然而,TM-SMGA的关键创新在于引入三元组损失。
三元组损失是一种度量损失,它衡量了潜在空间中三个图像之间的距离。三元组损失由三个部分组成:锚图像,正样本图像和负样本图像。锚图像和正样本图像来自同一域,而负样本图像来自不同的域。三元组损失的目标是在潜在空间中最小化锚图像和负样本图像之间的距离,并最大化锚图像和正样本图像之间的距离。
在TM-SMGA中,三元组损失被用作辅助损失,与重构损失和域损失一起使用。三元组损失鼓励编码器将相同域的图像表示在潜在空间中靠近,而将不同域的图像表示在远离的位置,这有助于生成器更好地在目标域中重建图像。
通过引入三元组损失,TM-SMGA可以生成更具多样性和质量的图像,尤其在面临少量目标域数据的情况下。同时,TM-SMGA也具有可扩展性和通用性,可以应用于各种图像转换和合成任务中。