论文解读《M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining》

系列文章目录



1、 L M i ( θ ) = − E t m s k ∼ t   l o g P θ ( t m s k ∣ t ¬ m s k , M ¬ i ) \mathcal{L}_{M_{i}}(\theta)=-E_{t_{m s k}\sim\mathrm{t~}}logP_{\theta}\left(t_{m s k}\mid t_{\neg m s k},\mathbf{M}_{\neg i}\right) LMi(θ)=Etmskt logPθ(tmskt¬msk,M¬i) 什么意思

含义分解

  1. 自监督学习背景

    • 该公式用于自监督学习中的损失函数,特别是在 Joint Co-Transformer (JCT) 模块中,针对不同模态(如图像、文本、表格、视频和音频)进行特征学习。
  2. 期望值

    • E t m s k ∼ t   E_{t_{m s k} \sim \mathrm{t~}} Etmskt 表示从分布 t t t中随机抽取的目标变量 t m s k t_{m s k} tmsk。这个变量在上下文中可能代表图像或文本模态中的特定特征。
  3. 条件概率

    • log ⁡ P θ ( t m s k ∣ t ¬ m s k , M ¬ i ) \log P_{\theta}\left(t_{m s k} \mid t_{\neg m s k}, \mathbf{M}_{\neg i}\right) logPθ(tmskt¬msk,M¬i) 表示在给定其他相关信息(如未掩盖的特征 t ¬ m s k t_{\neg m s k} t¬msk 和其他模态特征 M ¬ i \mathbf{M}_{\neg i} M¬i)的情况下,模型 θ \theta θ 预测 t m s k t_{m s k} tmsk的对数概率。
  4. 掩蔽任务

    • 在自监督学习中,使用了多种掩蔽任务(如 MRP、MLM、MEM、MFP 和 MAM)来促进特征学习。对于每个模态,15% 的输入被掩蔽,模型的目标是重建这些掩蔽的信息。
  5. 特定任务的区别

    • 在 MEM 任务中,与 MLM 任务不同的是,15% 的实体(如属性、品牌名称等)会被完全掩蔽,而不是单个单词。这种设计使得模型能够学习更好的表格表示,以恢复被掩蔽的输入。

总结

综上所述,公式 L M i ( θ ) \mathcal{L}_{M_{i}}(\theta) LMi(θ)描述了如何通过优化模型参数 θ \theta θ 来最小化损失,从而提高模型对特定模态(如图像或文本)的预测能力。通过掩蔽和重建任务,模型能够有效地学习到不同模态之间的关系和特征表示。

2、上面的期望值怎么理解“这个变量在上下文中可能代表图像或文本模态中的特定特征。

在您提供的上下文中,期望值 E t m s k ∼ t   E_{t_{m s k} \sim \mathrm{t~}} Etmskt 中的变量 t m s k t_{m s k} tmsk 代表从某个特定分布 t t t 中抽取的样本。具体来说,这个变量可以理解为:

  1. 模态特征

    • t m s k t_{m s k} tmsk 可能代表某个模态(如图像或文本)中的特定特征。例如,在图像模态中,这可能是某个区域的特征;在文本模态中,这可能是某个单词或短语。
  2. 自监督学习中的样本

    • 在自监督学习中,模型通过预测或重建被掩蔽的部分来学习特征。因此, t m s k t_{m s k} tmsk 实际上是模型需要预测的目标,可能是被掩蔽的某个特征。
  3. 多模态学习

    • 在多模态学习的场景中, t m s k t_{m s k} tmsk 可能与其他模态的特征(如文本描述与图像内容)相关联。模型通过利用这些关联来提高对特定模态的理解和预测能力。

总结

因此, t m s k t_{m s k} tmsk 是一个关键变量,代表模型在自监督学习过程中需要重建或预测的特征,具体取决于当前的模态(图像、文本等)。这种设计使得模型能够通过处理不同类型的输入来学习更丰富的特征表示。

3、no category information什么意思?

“No category information” 意思是没有类别信息或标签信息。在某些上下文中,这可能指的是在进行数据分析或机器学习时,数据集中缺乏明确的分类标签或类别标识。这种情况通常出现在以下几种场景中:

  1. 无监督学习:在无监督学习中,模型在没有类别标签的情况下进行学习,试图发现数据中的潜在结构或模式。
  2. 自监督学习:在自监督学习中,模型通过其他方式(例如掩蔽任务)进行训练,而不是依赖于明确的类别标签。
  3. 数据集特征:在某些数据集中,可能只包含特征数据而没有对应的类别标签,这使得模型无法进行有监督的分类任务。

总之,“no category information” 表示在处理数据时缺乏分类标签,这可能影响模型的训练和预测能力。

论文归纳

  1. 研究背景
    当前的多模态预训练模型在计算机视觉和自然语言处理领域得到了迅速的发展,并展示了自监督学习的潜力。然而,现有的大规模多模态数据集大多只涵盖图像和文本两种模态,无法充分发挥多模态信息的互补优势,尤其是在电子商务场景中,产品的多模态数据(如图片、文本、表格、视频和音频)能够捕获更丰富的语义信息。为了应对多模态预训练中的模态缺失、噪声以及模态交互学习的挑战,本论文提出了一个大规模的多模态预训练数据集——M5 Product,并提出了一种新颖的多模态融合预训练框架。

  2. 论文贡献

  • 提出了M5 Product,一个包含五种模态的大规模电子商务多模态数据集,涵盖了6,000多个类别和5,000多个属性,规模是现有最大公开数据集的500倍。
  • 提出了一个新的自监督学习框架,SCALE(Self-harmonized Contrastive Learning),能够通过自适应地融合多种模态的特征来增强模态之间的对比学习,并处理模态缺失和噪声问题。
  • 在多个下游任务上对当前最先进的多模态预训练方法进行了全面的实验比较,验证了SCALE框架的有效性和优越性。
  1. 方法框架
    论文提出的SCALE框架旨在通过自监督对比学习融合来自不同模态的特征。该框架设计了五条模态流处理图像、文本、表格、视频和音频,并通过自适应模态交互机制,在不同模态嵌入之间学习其重要性权重。这一机制不仅在模态对比学习模块中发挥作用,还应用于多模态Transformer模型的遮掩任务中,确保模型能够处理模态之间的噪声和不完整性。

  2. 研究思路
    首先,构建了一个大规模的五模态电子商务产品数据集,通过分析现有多模态数据集的局限性,提出适应真实场景的挑战性任务。接着,在此基础上设计了SCALE框架,以应对多模态数据在实际应用中存在的噪声、模态缺失以及模态之间信息融合的困难。通过对多个下游任务进行实验,验证该框架的泛化能力,并展示多模态融合在处理复杂场景中的优势。

  3. 实验
    实验部分通过四个下游任务对SCALE框架进行了评估,包括多模态检索、多模态分类、集群任务和跨模态任务。实验数据集来自M5 Product,测试了模型在面对大规模、长尾分布和模态缺失等挑战下的表现。SCALE框架在各项任务中的表现都超过了现有的多模态预训练模型,证明了自适应模态交互机制的有效性。

  4. 限制
    尽管SCALE框架在大规模多模态数据集上表现出色,但在某些极端情况下,例如所有模态同时缺失或数据高度不均衡时,模型的性能可能会受到限制。此外,M5 Product数据集主要基于电子商务场景,可能在其他垂直领域的泛化能力需要进一步验证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值