M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining 论文解读

Weiyaner

已于 2022-07-07 21:17:36 修改

阅读量902

点赞数

分类专栏：论文解读文章标签：人工智能机器学习深度学习

于 2022-07-07 18:26:25 首次发布

本文链接：https://blog.csdn.net/weixin_42327752/article/details/125663727

版权

论文解读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

2022年CVPR《M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining》
论文地址：https://arxiv.org/pdf/2109.04275.pdf
代码地址：https://github.com/Xiaodongsuper/SCALE_code

本文贡献主要有二：

开源了一个大规模的多模态预训练数据集M5Product。

该数据集包括5种模式（图像、文本、表格、视频和音频），涵盖6000多个类别和5000个属性，比具有类似模式数量的最大的公开数据集大500倍。此外，M5Product包含不完整的模式对和噪声，同时也有一个长尾分布，类似于大多数真实世界的问题。
提出了一个预训练框架Self-harmonized ContrAstive LEarning（SCALE）

通过自适应特征融合机制将不同的模态整合到一个统一的模型中，每个模态的重要性直接从模态嵌入中学习，并在多模态变换器模型中影响模态间的对比学习和掩码任务。

1 背景

问题背景：
目前的研究界大多集中在一般多模态和电子商务数据集中的两种模态（文本和图像），而忽略了来自表格结构数据以及视频和音频的额外补充信息的重要性。

例如，表格数据可以提供关于属性和特征的详细信息，如品牌、材料、属性和场景，而音频和视频可以传达不同的视角、规模、承受力、卖点、特征和使用场景，而这些从图像或文本中是不明显的。关注这两种模式的部分原因是缺乏具有不同模式的数据集，以及对平衡这些环境中模式重要性的方法探索不足。特别是，两个关键的挑战是。
1）模态交互。如何从单模态、双模态、三模态甚至多模态的关系中学习共同的表征，使用一种优雅的方法来扩展到大量的模态；
2）模态噪声：如何在训练过程中减少模态噪声（丢失和不完整的模态）的影响。

2 M5Product数据集简介

从阿里电商提取，有5,679种产品和24,398,673个参数值，构建了一个由电子商务商家标注的表数据库。处理之后，数据集包含6,313,067个样本。多模态信息如下：

在这里插入图片描述

3 SCALE预训练框架

3.1 框架设计

在这里插入图片描述
框架结构如上图，结构为单塔（流）模型。

通过编码器提取各种模态特征的嵌入，具体的：

文本和表格编码器是标准的转化器，分别对产品的标题和表格信息进行编码。
图像编码器并非以自下而上的注意力提取作为输入，而从视频中采样的序号帧则被送入视频编码器。
对于音频编码器，SCALE从音频中提取MFCC特征。在经过独立的模态编码器处理后，不同模态的标记特征被串联起来，并送入联合共变器（JCT）模块，以捕捉不同模态间的标记关系。

3.2 多模态掩码任务学习

和之前工作类似，这里采用掩码任务来进行学习。

为了从图像和文本模态中进行模态特征学习，我们在JCT之后分别采用了掩码区域预测任务（MRP）和掩码语言建模任务（MLM）。

利用表格、视频和音频模态的特点，我们进一步提出了掩码实体建模任务（MEM）、掩码帧预测任务（MFP）和掩码音频建模任务（MAM），遵循预测掩码标记的类似策略。

在所有的掩码任务中，真实标签是被掩码区域的特征。对于所有的掩码任务，15%的输入被掩码掉，其余的输入被用来重建被掩码的信息。请注意，与MLM任务中15%的单词被屏蔽不同，MEM任务中15%的实体（房产、品牌名称等）被完全屏蔽掉。这促使我们的模型学习更好的表征来恢复被掩盖的输入。

模态内的损失函数为：
在这里插入图片描述

3.3 自我协调的模态间对比学习

通过一种自我协调的自适应跨模态对比学习方法实现不同模态之间的语义对齐。

对于样本对，通过构建模态间的正负样本来求解损失函数。在以往的工作中，只有文本-图像两种模态，可以使用损失函数2求解。
在这里插入图片描述
但是对于3种以上模态数据，直接拟合损失函数是不合适的，因为它没有考虑到不同模态贡献的互补信息的差异。为了解决这个问题，我们定义了一个简单而有效的自洽方法来模拟模态间关系的互补过程。如下图：
在这里插入图片描述
引入一个模态对齐得分矩阵，来编码模态间损失 $L_{CL}$ 和模态内损失 $L_{Mi}$ 之间的关系。每个数据样本的排列分数矩阵S由一个零矩阵初始化，并作为自由模型参数更新。为了获得每个模态组合的模态重要性分数，我们对S应用softmax函数。最后，重要性分数相乘，生成模态排列分数S，即S=S-softmax(S).
在这里插入图片描述

4 下游任务

1 多模态检索/匹配
这项任务的目的是使用两种或多种模式的组合找到最相关的目标产品。如果一对产品都属于同一类别，则被认为是匹配的。

2 细粒度的多模态检索
在实例层面上进行检索，只有相同产品（即颜色、型号、形状和样式）的样本才被视为匹配

3多模态分类
使用线性分类器对从SCALE的联合共变换器中提取的多模态特征进行产品类别分类。

4多模态聚类
使用k-Means聚类和与分类设置中相同的特征进行产品类别聚类

5 结论

实验评估表明，SCALE能够从大量的模式中学习有效的表征，用于检索、分类和聚类。

为了促进多模态的预训练，我们提出了M5Product数据集，这是最大的多模态电子商务产品数据集，包括五个核心模态（图像、文本、表格、视频和音频）。为了进一步促进零售业的多模态研究，提高卖家和买家的参与度，我们还提出了新颖的SCALE多模态预训练框架。通过利用Self-harmonized Inter-Modality Contrastive Learning（SIMCL），SCALE能够有效地建模和利用模态关系，并在M5Product多模态检索、分类和聚类任务上优于以前的方法。