前言:text-image配对数据集并不是珍贵的,OpenAI为了训练GLIDE等大模型,曾经使用十亿量级的text-image数据集,而这些数据集主要是从互联网上爬取过滤的。image-to-text作为image-to-text的镜像问题,相关的研究少了很多。我们可以用CNN+LSTM搭建一个成功的模型用于完成这一任务。
目录
方法详解
整体流程
目前的模型是受Sequence2Sequence的启发,Seq2Seq是自然语言处理中机器翻译中常用的序列模型。利用循环神经网络保留时间信息,将文本嵌入到向量空间。在传统机器翻译中,输入和输出是不同语言的文本。因此,RNN被用作Sequence2Sequence模型中的编码器/解码器。编码器将输入文本编码为公共向量空间,解码器将向量空间解码以生成输出文本。对于图像描述,输入是