本文是对斯坦佛大学,李飞飞团队写的《Deep Visual-Semantic Alignments for Generating Image Descriptions》的实验验证,所有源代码均下载于
https://github.com/karpathy/neuraltalk
可能会出现一些差错,敬请指正。鞠躬~
理论知识基础:
http://www-cs-faculty.stanford.edu/people/karpathy/deepimagesent/
一、数据集介绍
在本文的实验中,我们使用Flickr8K,Flickr30K和COCO数据集,这些数据集分别包含8000,31000和123000张图片,并且每一张都使用Amazon Mechanical Turk的5个句子来作注释。对于Flickr数据集,他是雅虎发布的一个巨大的数据集,这个数据集由1亿张图片和70万个视频的URL以及与之相关的元数据(标题、描述、标签)所组成,这是一个相当可观的资源,实验使用Flickr8K和Flickr30K中的1000张图片做验证,1000张图片做测验,剩下的来做训练。而对于COCO来讲,实验使用5000张图片既做验证又做测试。
二、训练阶段
本文的实验按照Karpathy在github上对neuraltalk所发布的源代码进行研究,根据实验介绍,实验所需要的平台为python和NumPy,NumPy系统是专为pyth