Image captioning-数据格式

本文介绍了如何使用微软COCO数据集进行图像标题生成,包括数据格式、处理方法和经典论文。训练集包含大约8万张图片,验证集有4万张。数据集的标注信息主要关注caption,每个图像有多条英文描述。训练时,图片不会全部加载到内存,而是按需加载。文本需要转化为id形式,并进入embedding层。推荐了两个实用工具:Semantic Scholar和微信code排版工具。
摘要由CSDN通过智能技术生成

规划:

整体内容是四块:

  1. 首先是训练和评估数据,我们选择的是微软COCO图片数据数据,后面简单会介绍数据的格式,处理方式
  2. 整体topic的主线是沿着show and tell的发展
  3. 介绍各种attention以及其他encoder机制的加成
  4. evaluation方式及探讨应用

说明

  1. 代码使用tensorflow,最好升级到1.4,历史版本有很多算子是不支持GPU运算的。
  2. 有些基础的知识尽量不讲,比如SGD,RNN,CNN 这些概念,不然会使得整体线路很不清晰
  3. 尽量将比较经典的论文
  4. 对于有图像处理基础的同学,本节后面的image process 可以不用看

论文规划:

data: Microsoft COCO: Common Objects in Context
2015: Show and tell: A neural image caption generator
2015: Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
2016: SPICE: Semantic Propositional Image Caption Evaluation
2017: Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

链接见文末

image process

数据来源:Microsoft COCO

train/val image:

http://msvocds.blob.core.windows.net/coco2014/train2014.zip
http://msvocds.blob.core.windows.net/coco2014/val2014.zip

train 大约有8w张的图片,val 大约有4w张的图片

train/val caption:

http://msvocds.blob.core.windows.net/annotations-1-0-3/annotations/captions_train2014.json
http://msvocds.blob.cor

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值