本文借助 transformer 易于解释的特点提出了基于token embedding 重要性的 weighted adaptation的方法。

关于SAM跨模态知识蒸馏的最新工作:Segment Any Events via Weighted Adaptation of Pivotal Tokens。(Arxiv Github) 

我们都看到这几个月关于SAM,Large Pretrained Model等的工作层出不穷,但是他们大部分是基于常见模态的数据,比如图像,文本等。但是对于其他缺少大量标注数据的模态,这时如何有效的进行有效的pretrained知识迁移就变成了一个重要问题。在本文,为了解决这个问题,我们借助 transformer 易于解释的特点提出了基于token embedding 重要性的 weighted adaptation的方法。

1. 方法

具体的来说,我们的方法首先建立在一个理性的假设上。虽然我们期望network尽量减小不同modalities的分布差异,但是由于不同模态的内在的差异,我们是无法完全对齐一个模态的输入到令一个模态。这时,我们自然而然的想到一个问题就是不同的token embedding 对于最终的任务是否有重要性的区别?网络可解释性的论文能够对不同区域的feature 重要性给出支持,但是大多数工作需要借助反向传播的梯度进行解释。本来蒸馏需要我们同时跑两个网络,如果还要求对两个网络进行反向传播将会让训练开销大大增加。如果我们能够以比较低的代价(无需对teacher 进行反向传播)进行token重要性的评价的话,我们相信将对训练效率较大的帮助。

SAM~跨模态蒸馏_人工智能

图1. 我们对transformer 整个过程进行了"超大量"的化简,其信息流动过程变成了如图所示

SAM~跨模态蒸馏_人工智能_02

SAM~跨模态蒸馏_数据_03

SAM~跨模态蒸馏_数据_04

整体training flow 如下

SAM~跨模态蒸馏_反向传播_05

2. 结果

实验结果如下所示,领先其他方法。

SAM~跨模态蒸馏_数据_06

实验视觉结果

SAM~跨模态蒸馏_反向传播_07

实验结果

SAM~跨模态蒸馏_人工智能_08

不同β的效果

SAM~跨模态蒸馏_人工智能_09

不同α的结果

我们同时嵌入adapted sam 到LLM-SAM 联合的方法,效果如下。

SAM~跨模态蒸馏_模态_10

SAM~跨模态蒸馏_模态_11

SAM~跨模态蒸馏_数据_12

SAM~跨模态蒸馏_人工智能_13

SAM~跨模态蒸馏_模态_14

SAM~跨模态蒸馏_模态_15

详情请见:

Arxiv:https://arxiv.org/abs/2312.16222

Github:https://github.com/happychenpipi/EventSAM