Image captioning-数据格式

最新推荐文章于 2024-06-30 15:56:53 发布

wendaJ

最新推荐文章于 2024-06-30 15:56:53 发布

阅读量2.2k

点赞数 2

分类专栏：自然语言处理文章标签： nlp 自然语言处理 caption

本文链接：https://blog.csdn.net/chazhongxinbitc/article/details/78689456

版权

本文介绍了如何使用微软COCO数据集进行图像标题生成，包括数据格式、处理方法和经典论文。训练集包含大约8万张图片，验证集有4万张。数据集的标注信息主要关注caption，每个图像有多条英文描述。训练时，图片不会全部加载到内存，而是按需加载。文本需要转化为id形式，并进入embedding层。推荐了两个实用工具：Semantic Scholar和微信code排版工具。

摘要由CSDN通过智能技术生成

规划：

整体内容是四块：

首先是训练和评估数据，我们选择的是微软COCO图片数据数据，后面简单会介绍数据的格式，处理方式
整体topic的主线是沿着show and tell的发展
介绍各种attention以及其他encoder机制的加成
evaluation方式及探讨应用

说明

代码使用tensorflow，最好升级到1.4，历史版本有很多算子是不支持GPU运算的。
有些基础的知识尽量不讲，比如SGD，RNN，CNN 这些概念，不然会使得整体线路很不清晰
尽量将比较经典的论文
对于有图像处理基础的同学，本节后面的image process 可以不用看

论文规划：

data: Microsoft COCO: Common Objects in Context
2015: Show and tell: A neural image caption generator
2015: Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
2016: SPICE: Semantic Propositional Image Caption Evaluation
2017: Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

链接见文末