多模态
文章平均质量分 57
Rainylt
这个作者很懒,什么都没留下…
展开
-
Prefix tuning-->Attention中的矩阵拆解问题
其中,f(x)是为了将K1, K2拆开成两个softmax时产生的标量,详见TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING (ICLR 2022)由下图中可以看出,[K1, K2].T与[V1, V2]相乘==K1.T * V1 + K2.T * V2。加上原本attention的softmax的话就是。我们首先把Attention(Q, K, V)根据矩阵乘法的结合律可以等效为。为pytorch中的矩阵乘法。原创 2023-04-28 20:32:29 · 358 阅读 · 1 评论 -
BEIT-3杂谈
论文中没有给具体的预训练方法图,大概就参考上面这张Beit的图吧,Beit-3就是变成了多模态输入。跟MAE很像,主要区别在他不是还原像素、text,而是。因为MLM方法不一定需要图像-文本对,所以可以利用现有的标注较好的公开数据集,而CLIP的数据由网络采集,难免很多噪声。看到这篇的人应该都知道这篇文章的多任务SOTA结果了,我就不放那张披萨图了。至于token是怎么来的,还得再看两篇文章,等我后面再补。(2)token重建或许比原始data重建更好?...原创 2022-08-30 17:18:36 · 934 阅读 · 0 评论 -
What makes training multi-modal classification networks hard?
起因是作者发现在视频分类任务上,多模态模型反而不如单模态模型如上图,A是Audio,OF是光流(optical flow)。用的模型都是差不多的,举个例子,A+RGB就是在单RGB的基础上加了Audio的Encoder,然后把两个feature concat在一起,通过分类器分类。而单RGB就是直接RGB过encoder,然后过分类器分类。话说这里似乎没有在concat后增加transformer用来fuse?fuse模块或许可以一定程度上解决这个问题?...原创 2022-08-08 16:51:26 · 1077 阅读 · 0 评论 -
Improving Multimodal Accuracy Through Modality Pre-training and Attention
paper:发现多模态模型不同模态的收敛速度不一致,于是各自单独预训练,再用attention(非self-attn)得到不同模态的权重,乘上权重后concat->FC->logits首先讲一下这里的attention。不是self-attention那种Q*K的机制,而是直接把三个模态的feature concat后,过FC得到权重:H为三个模态(v, a, t)的feature,shape为(3,m)。输出三个模态的权重根据作者观察发现,直接训多模态模型,不同模态的Loss下降速度不一致(收敛速度原创 2022-07-06 11:07:38 · 171 阅读 · 0 评论