introduction
Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题。
能够用正确的英语句子自动描述图像的内容是一项非常具有挑战性的任务,但它可以帮助视障人士更好地理解网络上的图像内容。例如,这项任务比研究良好的图像分类或对象识别任务要困难得多,这是Computer vision community的主要关注点。实际上,描述不仅必须捕获图像中包含的对象,而且还必须表达这些对象之间的关系。
参考论文:https://arxiv.org/abs/1411.4555
代码实现: https://github.com/mosessoh/CNN-LSTM-Caption-Generator
视频: https://www.youtube.com/watch?v=XgJGvhkv_Mo
中文翻译: https://www.jianshu.com/p/3330a56f0d5e
鉴于GitHub中原作者的代码需要用到caffe,这里介绍一种只需要用tensorflow来训练的改进版,其效果是一样的。
注意:作者电脑配置是i7-7700HQ 2.80GHz ,GTX1070ti ,16G 可以做个参考
在下载数据集前要注意磁盘空间要留出150G左右(真正可能会用到100G)
第一步:
下载程序:http://download.csdn.net/download/laurenitum0716/10256327
第二步:
配置环境下载包
1.tensorflow1.0及以上
作者所用的事tensorflow1.4 ,还未装的小伙伴可以参考我的另一篇博文
https://blog.csdn.net/m0_38073193/article/details/82290249
显卡足够的小伙伴建议安装tensorflow(GPU),训练速度会比CPU版的快上10倍,作者只用了4个小时左右就训练好了。
2.NumPy 用pip下载即可
3.Natural Language Toolkit (NLTK)
安装教程:1) pip 下载nltk