image_caption论文及数据集

最新推荐文章于 2025-03-03 06:53:47 发布

codebrid

最新推荐文章于 2025-03-03 06:53:47 发布

阅读量5.8k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/ccbrid/article/details/79084015

版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

还不了解image caption的新同学，这里有paperweekly的slides：http://slides.com/walkingdead526/deck#/

paperweekly论文推荐：http://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/78664170
1. SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
2. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning
3. Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition
4. Deep Reinforcement Learning-based Image Captioning with Embedding Reward

数据集：
1.（论文地址）https://arxiv.org/pdf/1611.05594.pdf
1)Flickr8k:它包含8000张照片。6000训练,1000验证，1000测试;
2)Flickr30k:它包含3.1万张图片。我们有29000张train，1000张验证，1000张测试;
3)MSCOCO:在训练集中包含82,783个图像，验证集中40504个图像，测试集中40775个图像，由于MSCOCO测试集的ground truth不可用，验证集进一步被分割，成为模型选择和测试子集的验证子集。
它利用整个82,783个训练集图像进行训练，并从官方验证集选择5000个验证图像和5000个图像进行测试。
我们使用BLEU (B@1,B@2, B@3, B@4)， (MT)， CIDEr(CD)， ROUGE-L (RG)作为评价指标。
对于四个指标，简而言之，他们测量了生成的句子之间n-gram的一致性，这种一致性被n-gram的显著性和罕见性所影响。

同时，四个指标都可以通过MSCOCO标题评估工具直接计算。源代码已经公开可用

2.（论文地址）https://arxiv.org/pdf/1612.01887.pdf我们实验了两个数据集:Flickr30k和COCO。
Flickr30k包含从Flickr收集的31,783张图片大多描绘了人类进行各种各样的活动。每个图像与5个标题配对。1000分割来进行验证和测试。
COCO是最大的图像字幕数据集，分别82,783train、40,504valid和40,775test，每个图像都有5个人类注释的标题。

对于COCO评测服务器的在线评估，我们保留了2000张来自开发验证和其他培训的图片。

3.（论文地址）https://arxiv.org/pdf/1704.06972.pdf
使用MS-COCO、Stock3M
MS-COCO有123287图片，每幅图像都附有5个人类生成的标题，平均长度为10.36个单词。我们使用标准的培训/测试/验证、测试和使用5000张图片,5000张图片进行验证。MS-COCO是一个常用的用于图像字幕任务的基准。但是，数据集存在一些问题:图像有限，偏向于特定的内容类别，图像集相对较小。此外，由AMT员工产生的字幕也不是特别自然。
因此，我们收集了一个新的数据集:Stock3M，包含3,217,654个用户上传的图片，内容种类繁多，每个图片都与一个标题相关，图片上传者在一个股票网站上提供。更自然，数据集是26倍。标题比MS-COCO短得多，平均长度为5.25个单词。

我们使用2000个图像进行验证和8000个图像进行测试。

4.（论文地址）https://arxiv.org/pdf/1704.03899.pdf
我们对广泛使用的MSCOCO进行了评估。为了进行公平的比较，使用82783张图片train，5000张valid，5000张test。

每个图像至少由不同的AMT工作者提供5个标题。我们遵循[17]对标题进行预处理(即构建字典，对标题进行标记)。

SECOND：四篇paper的概述对比：
1. 效果最好 CNN-RNN CNN中引入attention
2. 对 visual attention 进行的改进 一个视觉哨兵来判断引入图片内容还是使用语言模型
3. 先生成主干句，再生成特征的描述不再是逐个的生成词
4. 强化学习相结合
还不了解传统的visual attention的同学，先看这篇https://arxiv.org/pdf/1502.03044v2.pdf
可参考博客http://blog.csdn.net/qq_21190081/article/details/53069541
5. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention