多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

现有多模态任务常存在噪声问题,影响模型效果。本文提出自监督去噪方法,将多模态噪声消除归结为密度估计任务,通过自监督训练去噪模块,集成到损失函数中。实验显示该方法能提升VQA等任务表现,但拓展到三模态更复杂,对情感分析收益不大。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

这篇文件讲的是, 按照现有多模态的任务, 往往会出现噪音的问题噪声使得模型一直得不到最好结果, 而这篇文章提出一个去噪方法,自监督的去训练一个去噪模块来消除噪声, 实验结果显示, 用此方法, 能够直接提高 VQA, Text-To-Video Retrieval 等任务的表现

本文贡献

  • 证明多模态噪声的消除任务 可以归结为 多模态密度估计任务
  • 提出一个模块用于学习一个抗噪声能力强的表示 并且变成一个 max margin ranking loss function.
  • 通过HowTo100M dataset 进行自监督训练如何去噪 , 然后用于5个任务, 结果可以发现进行提升

本文相关工作

  1. Density Estimation: 密度估计

    假设我们有一组来自未知密度函数的观察到的数据点,我们的目标是从观测到的数据估计他们的概率密度函数

  1. 自监督学习

    一文读懂自监督学习_zandaoguang的博客-CSDN博客_自监督学习

  2. 多模态表示学习

    joint representation 联合表示

    encoder-decoder framework

    coordinated representation

模型方法

在多模态数据中,当两个或多个模态不具有相同的语义含义时,样本被认为是有噪音的, 这种噪音会影响实验结果。

问题定义:

一个样本Z 是由视频片段V 和 对应的文本(字幕)C, 以及两者是否匹配 P

V 和 C 通过 Fv Fc 映射到同一特征空间,要求匹配的 V 和 C 在通过Fv, Fc 映射后相似

用多模态密度估计来进行噪声估计

定义两个样本的相似度

在这里插入图片描述

其中 s 是相似度计算函数 可以是 cos相似度计算
在这里插入图片描述

另外的符号表示的是均值和方差

然后是概率的表示, 概率的表示是用类似K-NN密度估计算法 来计算的

在这里插入图片描述

Zik 是 Zi 和 Zi 最近的第K个邻居的相似度

Soft Max Margin Ranking Loss

我们把上面的噪声估计组件进行集成, 集成到一个max margin ranking 损失函数中

在这里插入图片描述

P 是 正样本集合 Ni 是 对样本i 的负样本集合

理论分析

这一部分稍微有点难, 数学知识比较多, 后面再进行补充吧

实验

在HowTo100M 进行自监督训练, 然后放到下游任务里面

在这里插入图片描述

心得

从去噪声的角度,来进行实验, 可以提高实验效果, 也是一个思路吧, 他这篇是双模态的 任务,拓展到3模态应该会更加复杂

而且对于情感分析等来说好像收益不大, 因为 情感分析 本身就大部分是图文不相关的

### STiL 方法概述 Semi-supervised Tabular-Image Learning (STiL) 是一种用于处理多模态数据的半监督学习方法[^1]。该方法旨在通过结合表格数据和图像数据来提升模型性能,特别是在标注数据有限的情况下。STiL 的核心目标是从不同模态的数据中提取任务相关信息并加以融合。 #### 多模态分类中的任务相关信息探索 在多模态分类场景下,任务相关信息通常分布在不同的数据源之间。STiL 方法通过设计特定机制,在训练过程中逐步识别哪些特征对于当前任务最为重要[^2]。具体而言: - **跨模态关联建模**:STiL 利用注意力机制捕获表格数据与图像数据之间的潜在关系。这种机制能够动态调整各模态的重要性权重,从而聚焦于最相关的部分[^3]。 - **自监督信号增强**:为了充分利用未标记样本的信息,STiL 引入了自监督学习策略。这些策略可以通过预测旋转角度、对比学习等方式生成额外的学习信号,进一步优化模型参数[^4]。 - **联合表示空间构建**:通过对齐两种模态的嵌入向量,STiL 创建了一个统一的任务相关表示空间。这使得即使某些模态缺失或质量较差时,模型仍能保持较高的鲁棒性和准确性[^5]。 以下是实现上述功能的一个简化代码框架: ```python import torch.nn as nn class STILModel(nn.Module): def __init__(self, tabular_dim, image_channels): super(STILModel, self).__init__() # 图像编码器初始化 self.image_encoder = ImageEncoder(image_channels) # 表格数据编码器初始化 self.tabular_encoder = TabularEncoder(tabular_dim) # 跨模态注意层 self.cross_modal_attention = CrossModalAttention() # 输出层定义 self.classifier = Classifier() def forward(self, table_data, image_data): img_features = self.image_encoder(image_data) tab_features = self.tabular_encoder(table_data) combined_features = self.cross_modal_attention(img_features, tab_features) output = self.classifier(combined_features) return output ``` 此代码展示了如何分别对图像和表格数据进行编码,并利用 `CrossModalAttention` 层完成两者间的交互操作[^6]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值