image caption generation系列博文整理

最新推荐文章于 2024-02-14 12:11:30 发布

binqiang2wang

最新推荐文章于 2024-02-14 12:11:30 发布

阅读量4.8k

点赞数 7

分类专栏：论文阅读 NLP 迁移学习文章标签： image caption

本文链接：https://blog.csdn.net/m0_37052320/article/details/79699764

版权

论文阅读同时被 3 个专栏收录

26 篇文章

订阅专栏

NLP

9 篇文章

订阅专栏

迁移学习

2 篇文章

订阅专栏

cvpr 2018 image caption generation论文导读(含workshop)

这里只是简单整理一下image caption generation相关资料的出处，首先整理出自己在知乎上相关问题的回答：
现在的计算机视觉：图像字幕（image caption）领域发展到什么程度了呢？
个人觉得刚起步没多久，当然，也可能是本人知识水平有限。从我浅薄的认识来看，image caption的问题从传统的分类问题一脉相承过来的，简单的二分类任务，之后有了多分类任务，在这个基础上，把多分类任务的标签级别降低到像素级，就成了语意分割，但是这样数据库不好构建，耗费心神，然后怎么办呢？那就不用构建专门的数据库，利用网络上存在的大量数据，构造图片-文本的数据库，利用这个数据库来进行分类，或者叫image caption（要和多分类做区别，多分类类别没有顺序，而caption是要生成有意义的句子），但是目前，生成的句子其实很难有创新，最终效果上看，基本上和从数据库中抽取没有什么不同。评价标准也很匮乏，基本上是从机器翻译那里过来的，因为本身可以说是一个不确定的任务，有点真正的人工智能的意思，但真正的人工智能，我一直认为处在起步状态。
image caption目前的研究现状，有什么地方可以改进的？
可以改进如果是理论上那就太多了，但实践上如何改进是非常困难的。

首先:

评价指标是一个硬伤，因为是从机器翻译那里过度过来的，所以很多时候，和数据库本身依赖性非常大，无论是bleu, rouge,还是相对靠谱的meter, cider,比较新的spice,个人觉得都无法按照人的思路去判定一个caption的产生句子的好坏。可能人工智能必须要相当成熟，才能达到我想要的阶段，所以这是一句废话。

其次：

方法上，我看不到什么真正基于问题的创新，尤其是做图像，基本上改改框架，为什么要这么改？效果为什么好？谁也不知道，解释的相对比较清楚的，应该就是attention的show, attend and tell了，比较好的解释了为什么使用卷积层的特征，但是其实呢？如果换成全连接层的，效果会更好（被人科普的，没有实验验证），所以本身创新比较难。

最后：

除了英文的之外，中文的最近也做了很多，除了自然图像和视频(video caption)之外，遥感影像（exploring modes and data for remote sensing image caption generation）也开始做了，发展思路基本上是一样的，所以现阶段能做的，是在刷新数据库的基础上，努力突破关键性问题。

接下来是一些，资料，个人认为，如果不了解，想要入门，可以看这个翻译过来的资料
一周论文 | Image Caption任务综述。
大概的历史了解了之后，可以看一些知乎上整理的相关专栏：
Image Caption 深度学习方法综述
 图文互搜论文综述
看完了上面的内容，基本大概就都了解了，但只是大概，想要细节性的了解一些算法，可以参见下面的几篇博客：
attention机制的caption系列博文

说到底，上面这些都是入门了解大概的，根本还是论文，根本的根本，是论文的相关代码。