【论文笔记】What Value Do Explicit High Level Concept Have in Vision to Language Problems?

最新推荐文章于 2021-04-15 17:53:00 发布

Issac_33

最新推荐文章于 2021-04-15 17:53:00 发布

阅读量3.3k

点赞数 10

分类专栏： papers 文章标签： cnn CV

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35647180/article/details/64129984

版权

不知道大家在接触image caption各种模型的时候有没有发现一些共同点，个人感觉无非是改CNN，改RNN和改衔接方式，这其中可能包含几个问题。
CNN提取出的特征图虽然很适合图像问题，但作为输入直接衔接到翻译问题中合适吗？
CNN的输出要怎么加入到RNN中才能更好的使图像中的注意力信息被文本化呢？
多次输入效果真的不如单次好吗，如果多次输入不同呢？
还有最原始的问题，RNN对长句子的遗忘问题怎么解决呢？

很多论文就是对以上几个问题做了很多的改进和实验，比如说MAT: A Multimodal Attentive Translator for Image Captioning用了很新颖的CNN+encoder+attention+decoder的方式；本次要说的论文使用了BB+pooling的方式优化衔接过程；show attend and tell在CNN和RNN之间加入了上下文，使得每次都有顺序的看图像的不同部位……当然这些模型都取得了不错的效果。纵观CV和NLP中的各种模型的发展，给人一种由硬到软的发展趋势，也就是说类似hard coding（比如说卷基层到fc层的固定神经元数量的映射使得输入图像大小必须一致）的问题一直在向着soft coding发展，但随之而来的问题可能就是参数越来越多，网络越来越复杂。

好啦，以上是个人一点小见解，如果说的欠考虑的也

最低0.47元/天解锁文章

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
【论文笔记】What Value Do Explicit High Level Concept Have in Vision to Language Problems?

不知道大家在接触image caption各种模型的时候有没有发现一些共同点，个人感觉无非是改CNN，改RNN和改衔接方式，这其中可能包含几个问题。 CNN提取出的特征图虽然很适合图像问题，但作为输入直接衔接到翻译问题中合适吗？ CNN的输出要怎么加入到RNN中才能更好的使图像中的注意力信息被文本化呢？多次输入效果真的不如单次好吗，如果多次输入不同呢？还有最原始的问题，RNN对长句子的遗
复制链接

扫一扫

专栏目录

目录

分类专栏

caffe 1篇
RNN 6篇
TensorFlow 4篇
NLP 2篇
papers 5篇
其他 2篇

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。