【论文笔记】What Value Do Explicit High Level Concept Have in Vision to Language Problems?

不知道大家在接触image caption各种模型的时候有没有发现一些共同点,个人感觉无非是改CNN,改RNN和改衔接方式,这其中可能包含几个问题。
CNN提取出的特征图虽然很适合图像问题,但作为输入直接衔接到翻译问题中合适吗?
CNN的输出要怎么加入到RNN中才能更好的使图像中的注意力信息被文本化呢?
多次输入效果真的不如单次好吗,如果多次输入不同呢?
还有最原始的问题,RNN对长句子的遗忘问题怎么解决呢?

很多论文就是对以上几个问题做了很多的改进和实验,比如说MAT: A Multimodal Attentive Translator for Image Captioning用了很新颖的CNN+encoder+attention+decoder的方式;本次要说的论文使用了BB+pooling的方式优化衔接过程;show attend and tell在CNN和RNN之间加入了上下文,使得每次都有顺序的看图像的不同部位……当然这些模型都取得了不错的效果。纵观CV和NLP中的各种模型的发展,给人一种由硬到软的发展趋势,也就是说类似hard coding(比如说卷基层到fc层的固定神经元数量的映射使得输入图像大小必须一致)的问题一直在向着soft coding发展,但随之而来的问题可能就是参数越来越多,网络越来越复杂。

好啦,以上是个人一点小见解,如果说的欠考虑的也

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值