多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

最新推荐文章于 2025-03-15 15:50:02 发布

B站：阿里武

最新推荐文章于 2025-03-15 15:50:02 发布

阅读量1.4k

点赞数 1

分类专栏：多模态文章标签：多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq874455953/article/details/112549078

版权

多模态专栏收录该内容

21 篇文章

订阅专栏

现有多模态任务常存在噪声问题，影响模型效果。本文提出自监督去噪方法，将多模态噪声消除归结为密度估计任务，通过自监督训练去噪模块，集成到损失函数中。实验显示该方法能提升VQA等任务表现，但拓展到三模态更复杂，对情感分析收益不大。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

这篇文件讲的是，按照现有多模态的任务，往往会出现噪音的问题，噪声使得模型一直得不到最好结果，而这篇文章提出一个去噪方法，自监督的去训练一个去噪模块来消除噪声，实验结果显示，用此方法，能够直接提高 VQA， Text-To-Video Retrieval 等任务的表现

本文贡献

证明多模态噪声的消除任务可以归结为 多模态密度估计任务
提出一个模块用于学习一个抗噪声能力强的表示并且变成一个 max margin ranking loss function.
通过HowTo100M dataset 进行自监督训练如何去噪，然后用于5个任务，结果可以发现进行提升

本文相关工作

Density Estimation：密度估计

假设我们有一组来自未知密度函数的观察到的数据点，我们的目标是从观测到的数据估计他们的概率密度函数

参数或半参数方法
非参数方法

密度估计理论（部分）_sinat_31184961的博客-CSDN博客_密度估计

自监督学习

一文读懂自监督学习_zandaoguang的博客-CSDN博客_自监督学习
多模态表示学习

joint representation 联合表示

encoder-decoder framework

coordinated representation

模型方法

在多模态数据中，当两个或多个模态不具有相同的语义含义时，样本被认为是有噪音的，这种噪音会影响实验结果。

问题定义：

一个样本Z 是由视频片段V 和对应的文本（字幕）C，以及两者是否匹配 P，

V 和 C 通过 Fv Fc 映射到同一特征空间，要求匹配的 V 和 C 在通过Fv， Fc 映射后相似

用多模态密度估计来进行噪声估计

定义两个样本的相似度

在这里插入图片描述

其中 s 是相似度计算函数可以是 cos相似度计算
在这里插入图片描述

另外的符号表示的是均值和方差

然后是概率的表示，概率的表示是用类似K-NN密度估计算法来计算的

在这里插入图片描述

Zik 是 Zi 和 Zi 最近的第K个邻居的相似度

Soft Max Margin Ranking Loss

我们把上面的噪声估计组件进行集成，集成到一个max margin ranking 损失函数中

在这里插入图片描述

P 是正样本集合 Ni 是对样本i 的负样本集合

理论分析

这一部分稍微有点难，数学知识比较多，后面再进行补充吧

实验

在HowTo100M 进行自监督训练，然后放到下游任务里面

在这里插入图片描述

心得

从去噪声的角度，来进行实验，可以提高实验效果，也是一个思路吧，他这篇是双模态的任务，拓展到3模态应该会更加复杂

而且对于情感分析等来说好像收益不大，因为情感分析本身就大部分是图文不相关的

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。