深度可视化语义表述和图像描述实验

最新推荐文章于 2024-06-28 01:36:04 发布

Eleanora_Iein

最新推荐文章于 2024-06-28 01:36:04 发布

阅读量5.8k

点赞数 10

分类专栏：机器学习-神经网络文章标签：可视化机器学习卷积神经网络

本文链接：https://blog.csdn.net/Eleanora_Iein/article/details/52066097

版权

本文基于斯坦福大学李飞飞团队的研究，利用NeuralTalk实现深度视觉语义对齐，生成图像描述。实验涉及Flickr8K、Flickr30K和COCO数据集，使用递归神经网络，训练过程包括数据准备、模型训练、测试及自定义图片描述生成。通过监控checkpoint文件跟踪训练状态，并使用VGG16模型提取特征。

摘要由CSDN通过智能技术生成

本文是对斯坦佛大学，李飞飞团队写的《Deep Visual-Semantic Alignments for Generating Image Descriptions》的实验验证，所有源代码均下载于
https://github.com/karpathy/neuraltalk
可能会出现一些差错，敬请指正。鞠躬~

理论知识基础：
http://www-cs-faculty.stanford.edu/people/karpathy/deepimagesent/

一、数据集介绍
在本文的实验中，我们使用Flickr8K，Flickr30K和COCO数据集，这些数据集分别包含8000,31000和123000张图片，并且每一张都使用Amazon Mechanical Turk的5个句子来作注释。对于Flickr数据集，他是雅虎发布的一个巨大的数据集，这个数据集由1亿张图片和70万个视频的URL以及与之相关的元数据（标题、描述、标签）所组成，这是一个相当可观的资源，实验使用Flickr8K和Flickr30K中的1000张图片做验证，1000张图片做测验，剩下的来做训练。而对于COCO来讲，实验使用5000张图片既做验证又做测试。

二、训练阶段
本文的实验按照Karpathy在github上对neuraltalk所发布的源代码进行研究，根据实验介绍，实验所需要的平台为python和NumPy，NumPy系统是专为pyth