【多模态论文阅读】Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual

最新推荐文章于 2024-06-02 10:01:55 发布

CC‘s World

最新推荐文章于 2024-06-02 10:01:55 发布

阅读量2.7k

点赞数

分类专栏：多模态文章标签：机器学习算法多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36643449/article/details/123258266

版权

多模态专栏收录该内容

25 篇文章 10 订阅

订阅专栏

一、亮点

在融合文本和视觉两种模态的时候，通常使用concatenation的方法或者element-wise 乘积or求和，但是我们认为这些方法不如两个向量之间的外积那样具有表现力。与元素积相比，外积计算的是两个向量的所有元素之间的乘法交互。然而由于外积的高维性，通常是不可行的，所以本文提出用多么太紧凑双线性池化(MCB)来高效地表达多模态特征。

并且本文的还有一个亮点在于，对于VQA任务，使用两次MCB——一次用于预测对于空间特征的attention，另一次用于融合文本特征和视觉特征。

通过将图像和文本的表示随机投影到更高维空间(使用Count Sketch)，然后在快速傅立叶变换(FFT)空间中使用元素乘积有效地卷积两个向量，可以近似多模态紧凑双线性池化。
请添加图片描述

二、模型结构

2.1 MCB(Multimodal Compact Bilinear Pooling)

Count Sketch 映射方法：
映射前向量为a （n维）
映射后向量为y （d维）

这里有两个参数数组：
$s∈{\{-1, 1\}}^n$
$h∈{\{1,...,d\}}^n$

s表示第n个元素加的权
h表示第n个元素加到映射后的那个位置
则有：y[h[I]] += a[I] * s[i]

两向量作外积之后的映射等于两向量分别作映射后的卷积，且两个向量的卷积可以使用FFT 快速傅里叶变换代替，即：
请添加图片描述
$x' * q' = FFT^{-1}(FFT(x')⊙FFT(q'))$

整个算法流程为：
请添加图片描述

2.2 VQA框架

请添加图片描述
这里需要注意的是，使用了两次MCB——一次用于预测对于空间特征的attention，另一次用于融合文本特征和视觉特征。

同时，对于需要预测的答案，我们也使用一个MCB。
请添加图片描述

参考资料

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding——EMNLP2016

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
【多模态论文阅读】Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual

一、亮点在融合文本和视觉两种模态的时候，通常使用concatenation的方法或者element-wise 乘积or求和，但是我们认为这些方法不如两个向量之间的外积那样具有表现力。与元素积相比，外积计算的是两个向量的所有元素之间的乘法交互。然而由于外积的高维性，通常是不可行的，所以本文提出用多么太紧凑双线性池化(MCB)来高效地表达多模态特征。并且本文的还有一个亮点在于，对于VQA任务，使用两次MCB——一次用于预测对于空间特征的attention，另一次用于融合文本特征和视觉特征。通过将图像和文本
复制链接

扫一扫

专栏目录

CC‘s World CSDN认证博客专家 CSDN认证企业博客

码龄8年

280: 原创

23万+: 周排名

183万+: 总排名

25万+: 访问

: 等级

3396: 积分

112: 粉丝

131: 获赞

42: 评论

822: 收藏

私信

关注

热门文章

分类专栏

Python 2篇
机器学习 27篇
广告系统 2篇
推荐系统学习 2篇
多模态 25篇
Keras 18篇
算法 11篇
计算机基础 9篇
工程应用 7篇
推荐算法 40篇
PySpark 9篇
C++ 14篇
论文阅读 4篇
TensorFlow 12篇
力扣 54篇
自然语言处理 5篇
MXNet 1篇
Pytorch 13篇
数据结构 2篇
剑指offer编程题 67篇
计算机视觉 1篇

最新评论

【算法】局部敏感哈希 LSH 的 Python 实现
不断生长: 想问一下，这个局部敏感哈希和位置敏感哈希(location sensitive hash)是一样的吗？
【算法】局部敏感哈希 LSH 的 Python 实现
柚子树cc: 后面两个minhash的验证应该使用Jaccard距离吧，找出来的topk明显不太对
【算法】局部敏感哈希 LSH 的 Python 实现
m0_56951613: 最近在学lsh，看了这篇文章有两个问题想问问博主 1、e2lsh不是需要L个哈希函数族，每族k个哈希函数吗，感觉你的代码里好像只有一个哈希函数族，不知道是不是我理解错了 2、经过lsh筛选后，只比较前20个数据的话确实看起来精确度很高，但我输出了candidates发现其实筛选后还有8，9000个数据，也就是说只排除了1000多个数据，我试过其他人的代码，但基本都有这个问题，要保证精确度的话筛选掉的数据量就会很小，想要筛选完的数据量小的话精确度就会很低，是这算法原本的目的就是在海量数据集里筛选掉一小部分的数据吗，还是调参没调好导致效果太差？
【计算机基础】github使用 & git命令
朗197: 帮助很大，非常感谢！！！
【论文阅读】Adaptive Mixtures of Local Experts
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。