跨模态知识蒸馏论文阅读

DisCoM-KD: Cross-Modal KnowledgeDistillation via DisentanglementRepresentation and Adversarial Lea**

摘要

引入了一个新的跨模态知识蒸馏框架,名为 DisCoM-KD (Disentanglement-learning based Cross-modal Knowledge Distillation),它明确地模拟了不同类型的每模态信息,目的是将知识从多模态数据转移到单模态分类器。

整体架构流程

在这里插入图片描述

技术细节

目标函数:
在这里插入图片描述
1.分类损失函数
在这里插入图片描述
2.让分类器区分来自不同模态的样本表示

该损失用于学习模态不变的嵌入,通过对抗训练策略(Gradient Reversal Layer, GRL)来混淆模态信息,使模态不变嵌入不能被轻易区分模态类别。
在这里插入图片描述
在这里插入图片描述

3.预测嵌入来自哪个分支
在这里插入图片描述在这里插入图片描述在这里插入图片描述

4.增强 permodality 嵌入所携带的任务判别信息:
在这里插入图片描述

5.嵌入之间强制执行正交性:
在这里插入图片描述

在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

代码

https://github.com/tanodino/CMKD_Disentangle/blob/master/model_pytorch.py

Segment Any Events via Weighted Adaptation of Pivotal Tokens

摘要

Segment Any Events(SAE)是一个用于 事件检测和分割 的模型
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

​​​​

整体架构流程

在这里插入图片描述
在这里插入图片描述

目标函数:

标量 α i表示归一化层和 MLP 的缩放影响。这导致来自注意力机制和残差连接的信息比率发生变化。由于正确估计所有 α i相当耗时,甚至难以理解,我们建议通过假设多层自注意力机制的嵌入过渡过程实际上是一个具有平稳分布的马尔可夫链来简化它。

在这里插入图片描述
在这里插入图片描述

我们正则化了四层嵌入,其相应深度为 

Si = {0, 3, 6, 9, 12}
在这里插入图片描述
在这里插入图片描述

实验结果

在这里插入图片描述
(h)为此蒸馏方法得到的分割图像
在这里插入图片描述

附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值