image_caption论文及数据集

还不了解image caption的新同学,这里有paperweekly的slides:http://slides.com/walkingdead526/deck#/
 

paperweekly论文推荐:http://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/78664170
1. SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning 
2. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 
3. Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition 
4. Deep Reinforcement Learning-based Image Captioning with Embedding Reward

数据集:
1.(论文地址)https://arxiv.org/pdf/1611.05594.pdf
1)Flickr8k:它包含8000张照片。6000训练,1000验证,1000测试;
2)Flickr30k:它包含3.1万张图片。我们有29000张train,1000张验证,1000张测试;
3)MSCOCO:在训练集中包含82,783个图像,验证集中40504个图像,测试集中40775个图像,由于MSCOCO测试集的ground truth不可用,验证集进一步被分割,成为模型选择和测试子集的验证子集。
它利用整个82,783个训练集图像进行训练,并从官方验证集选择5000个验证图像和5000个图像进行测试。
我们使用BLEU (B@1,B@2, B@3, B@4), (MT), CIDEr(CD), ROUGE-L (RG)作为评价指标。
对于四个指标,简而言之,他们测量了生成的句子之间n-gram的一致性,这种一致性被n-gram的显著性和罕见性所影响。

同时,四个指标都可以通过MSCOCO标题评估工具直接计算。源代码已经公开可用 

 

2.(论文地址)https://arxiv.org/pdf/1612.01887.pdf我们实验了两个数据集:Flickr30k和COCO。
Flickr30k包含从Flickr收集的31,783张图片大多描绘了人类进行各种各样的活动。每个图像与5个标题配对。1000分割来进行验证和测试。
COCO是最大的图像字幕数据集,分别82,783train、40,504valid和40,775test,每个图像都有5个人类注释的标题。

 

 

对于COCO评测服务器的在线评估,我们保留了2000张来自开发验证和其他培训的图片。 

3.(论文地址)https://arxiv.org/pdf/1704.06972.pdf
使用MS-COCO、Stock3M
MS-COCO有123287图片,每幅图像都附有5个人类生成的标题,平均长度为10.36个单词。我们使用标准的培训/测试/验证、测试和使用5000张图片,5000张图片进行验证。MS-COCO是一个常用的用于图像字幕任务的基准。但是,数据集存在一些问题:图像有限,偏向于特定的内容类别,图像集相对较小。此外,由AMT员工产生的字幕也不是特别自然。
因此,我们收集了一个新的数据集:Stock3M,包含3,217,654个用户上传的图片,内容种类繁多,每个图片都与一个标题相关,图片上传者在一个股票网站上提供。更自然,数据集是26倍。标题比MS-COCO短得多,平均长度为5.25个单词。

 

 

我们使用2000个图像进行验证和8000个图像进行测试。

4.(论文地址)https://arxiv.org/pdf/1704.03899.pdf
我们对广泛使用的MSCOCO进行了评估。为了进行公平的比较,使用82783张图片train,5000张valid,5000张test。

每个图像至少由不同的AMT工作者提供5个标题。我们遵循[17]对标题进行预处理(即构建字典,对标题进行标记)。

 

 

 

SECOND:四篇paper的概述对比:
1. 效果最好 CNN-RNN CNN中引入attention
2. 对 visual attention 进行的改进  一个视觉哨兵来判断引入图片内容还是使用语言模型
3. 先生成主干句,再生成特征的描述 不再是逐个的生成
4. 强化学习相结合
还不了解传统的visual attention的同学,先看这篇https://arxiv.org/pdf/1502.03044v2.pdf
可参考博客http://blog.csdn.net/qq_21190081/article/details/53069541
5. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

使用数据集:Flickr8k, Flickr30k and MS COCO

 

THIRD:下载数据集

 

https://blog.csdn.net/ccbrid/article/details/79368639 

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值