感想
我最近找到了一篇比较好的看图说话模型的入门教程,地址为:https://fairyonice.github.io/Develop_an_image_captioning_deep_learning_model_using_Flickr_8K_data.html
原文是python2.7的,我这里改成了python3.x的,如果你使用的是python3,参考我的就行了,原论文用python3来写有错误。
然后这篇博客提供了很多样例,并且做了很多可视化,一步一步跟着jupyter的来,相信读者就能理解模型的全过程。
说明
我这里直接嵌入了jupyter notebook,如果读者看不见jupyter,请看浏览器是否拦截,这里给出chrome解除拦截的方法:
图片源于:https://blog.csdn.net/nima1994/article/details/79630087
dataset
用的数据集是Flickr_8k,只有1GB多,比COCO小得多,很适合写看图说话模型的教程,下载地址为:
Flickr8k:https://forms.illinois.edu/sec/1713398
jupyter
src="http://nbviewer.jupyter.org/github/w5688414/image-captioning-examples/blob/master/image_caption_example.ipynb" width="100%" height="30000">reference
Python3中dict.keys()转换成list类型
TyperError with prepro.py, "float() argument must be a string or number, not ‘map’ "
DataFrame排序sort的问题
jupyter notebook加载到csdn里