Multi-modal Circulant Fusion for Video-to-Language and Backward（MCF)同时使用vector和matrix

最新推荐文章于 2022-08-14 20:05:35 发布

十二分热爱

最新推荐文章于 2022-08-14 20:05:35 发布

阅读量978

点赞数

分类专栏：多模态融合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41988545/article/details/112548116

版权

多模态融合专栏收录该内容

9 篇文章 12 订阅

订阅专栏

1.多模态循环融合（MCF）

MCF的详细过程如图，x,y为不同模态特征向量，首先利用两个投影矩阵W1,W2将将特征投影到VC两个低维空间。

然后利用V、C构造循环矩阵A和B

为了使投影向量和循环矩阵中的元素充分作用，我们探索了两种不同的乘法运算

1）在循环矩阵和投影向量之间使用矩阵乘法

2）是让循环矩阵的投影向量和每行进行元素积

最后通过一个投影矩阵W3，将F和G的利用element-wise sum转换为M

2.MCF for Video Captioning

开发了一个视频->字幕框架：卷积编码器和解码器

在解码器中，将MCF作为粗略解码的基础层，在基础层上堆叠分层扩展以进行精细和最终解码。

因此用MCF构建了一个多级解码器

2.1卷积编码网络

1）特征提取：

使用预先训练的卷积网络对每m帧提取特征，产生向量Xi对第i帧

2）区别性提升：

对两个连续的帧Xi和Xi+1，计算帧间差别diff，然后通过relu运算，添加积极的diff到Xi+1，将消极的diff添加到Xi。

因而扩大区别性差异在Xi与Xi+1之间

Vi是提升结果

3）重构网络

我们构建了一个重构网络来学习每个视频帧的紧凑表示

We是卷积权重，Zi是学习的紧致表示，Wd是重构权重，Ri是重构结果

L是损失函数

2.2Multi-stage Convolutional Decoder with MCF

多级顺序解码器示意图。对于这个解码器，我们首先使用MCF来获得视觉特征和单词嵌入特征的联合表示。然后我们把联合表示作为这个解码器的输入。“粗略”、“精细”和“最终”表示解码器的三个阶段。相应的不断改进的视频描述以绿色、黄色和橙色显示

预测单词序列用第j个解码器：

目标单词序列：

1）MCF作为粗解码器

在底部阶段，用一个扩展卷积层来学习一个粗解码器，在每一个时间t，粗解码器的输入包括先前的目标单词Yt-1和mean向量Zmean（编码器的输出）

一开始用MCF去获得联合表示

MCF(a,b)表示使用MCF去融合a和b

wfwg表示第0层的卷积权重

2）改进解码器

由两个阶段组成，第一个阶段包含三个扩张的卷积层，第二阶段仅包括一个堆叠在第一级之上的扩展卷积层。第二阶段的预测作为最终描述。

改进解码器：

对于第一个改进解码器，使用粗解码器的输出h0来计算视觉注意力

该改进解码器中第一层的操作：

w1是可学习的权重，用于转换级联表示的通道

然后第一改进解码器的下两层操作

第二个改进的解码器：

十二分热爱

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Multi-modal Circulant Fusion for Video-to-Language and Backward（MCF)同时使用vector和matrix

1.多模态循环融合（MCF）MCF的详细过程如图，x,y为不同模态特征向量，首先利用两个投影矩阵W1,W2将将特征投影到VC两个低维空间。然后利用V、C构造循环矩阵A和B为了使投影向量和循环矩阵中的元素充分作用，我们探索了两种不同的乘法运算1）在循环矩阵和投影向量之间使用矩阵乘法2）是让循环矩阵的投影向量和每行进行元素积最后通过一个投影矩阵W3，将F和G的利用element-wise sum转换为M2.MCF for Video Captioning开..
复制链接

扫一扫

专栏目录

十二分热爱 CSDN认证博客专家 CSDN认证企业博客

码龄6年

333: 原创

19万+: 周排名

88万+: 总排名

21万+: 访问

: 等级

4987: 积分

39: 粉丝

79: 获赞

38: 评论

293: 收藏

私信

关注

分类专栏

最新评论

二叉树四种遍历
2301_80831028: DeV为什么运行不了
标题：全球变暖
开学bug: 思路错了，大家散了吧
[蓝桥杯][算法提高VIP]洗牌
qq_45757788: 我来告诉你为什么，num不应该小于等于52，而是应该小于等于56。如果用char作为输入变量的定义值，一次只能输入一个字符。当输入10，相当于执行了2次while循环，才能把10存放在容器里。扑克牌里有4张10，因此while循环要执行56次。因此，num<=52时，容器里只存了48个数。
Memory Fusion Network for Multi-view Sequential Learning注意力融合MFN
Shineboxs: 我理解是，经过这些操作，MFT的输出就含有时序上多个模态相互之间进行交互的交互信息
超级楼梯（递归）
英雄这里出来: 这个用递归会超时吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。