VQA 之 Multimodal Compact Bilinear Pooling

最新推荐文章于 2025-04-26 08:45:00 发布

bea_tree

最新推荐文章于 2025-04-26 08:45:00 发布

阅读量8.3k

点赞数 3

文章标签： VQA MCB bilinear pooling

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bea_tree/article/details/72903566

版权

涉及论文
[1]Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
https://www.arxiv.org/pdf/1606.01847.pdf
[2]Compact Bilinear Pooling
https://arxiv.org/pdf/1511.06062.pdf
[3]Bilinear CNN Models for Fine-grained Visual Recognition
https://arxiv.org/pdf/1504.07889.pdf

1 introduction

这里主要涉及三篇文章,首先是做fine-grained的bilinear cnn models[3],但是bilinear cnn会引起参数维度过大，于是作者提出了compact bilinear pooling[2]，然后在此基础上做VQA任务[1]，并取得了2016年的冠军 http://visualqa.org/roe.html

VQA =Visual Question Answering, 主要任务是给定一幅图片，并提出几个问题，模型负责回答该问题

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。