规划:
整体内容是四块:
- 首先是训练和评估数据,我们选择的是微软COCO图片数据数据,后面简单会介绍数据的格式,处理方式
- 整体topic的主线是沿着show and tell的发展
- 介绍各种attention以及其他encoder机制的加成
- evaluation方式及探讨应用
说明
- 代码使用tensorflow,最好升级到1.4,历史版本有很多算子是不支持GPU运算的。
- 有些基础的知识尽量不讲,比如SGD,RNN,CNN 这些概念,不然会使得整体线路很不清晰
- 尽量将比较经典的论文
- 对于有图像处理基础的同学,本节后面的image process 可以不用看
论文规划:
data: Microsoft COCO: Common Objects in Context
2015: Show and tell: A neural image caption generator
2015: Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
2016: SPICE: Semantic Propositional Image Caption Evaluation
2017: Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning
链接见文末
image process
数据来源:Microsoft COCO
train/val image:
http://msvocds.blob.core.windows.net/coco2014/train2014.zip
http://msvocds.blob.core.windows.net/coco2014/val2014.zip
train 大约有8w张的图片,val 大约有4w张的图片
train/val caption:
http://msvocds.blob.core.windows.net/annotations-1-0-3/annotations/captions_train2014.json
http://msvocds.blob.cor