深度可视化语义表述和图像描述实验

本文基于斯坦福大学李飞飞团队的研究,利用NeuralTalk实现深度视觉语义对齐,生成图像描述。实验涉及Flickr8K、Flickr30K和COCO数据集,使用递归神经网络,训练过程包括数据准备、模型训练、测试及自定义图片描述生成。通过监控checkpoint文件跟踪训练状态,并使用VGG16模型提取特征。
摘要由CSDN通过智能技术生成

本文是对斯坦佛大学,李飞飞团队写的《Deep Visual-Semantic Alignments for Generating Image Descriptions》的实验验证,所有源代码均下载于
https://github.com/karpathy/neuraltalk
可能会出现一些差错,敬请指正。鞠躬~

理论知识基础:
http://www-cs-faculty.stanford.edu/people/karpathy/deepimagesent/

一、数据集介绍
在本文的实验中,我们使用Flickr8K,Flickr30K和COCO数据集,这些数据集分别包含8000,31000和123000张图片,并且每一张都使用Amazon Mechanical Turk的5个句子来作注释。对于Flickr数据集,他是雅虎发布的一个巨大的数据集,这个数据集由1亿张图片和70万个视频的URL以及与之相关的元数据(标题、描述、标签)所组成,这是一个相当可观的资源,实验使用Flickr8K和Flickr30K中的1000张图片做验证,1000张图片做测验,剩下的来做训练。而对于COCO来讲,实验使用5000张图片既做验证又做测试。

二、训练阶段
本文的实验按照Karpathy在github上对neuraltalk所发布的源代码进行研究,根据实验介绍,实验所需要的平台为python和NumPy,NumPy系统是专为pyth

  • 10
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值