这是百度提出的图像生成文本模型

Multi-Modal:他的输入是一个组合了多种信息的输入
- 输入一个词
- 通过Table Projection将一个词语Embedding 成一个128的向量Embedding1
- 通过全连接层到了将128的向量转成了256的向量 Embedding2
- Embedding2经过全连接到Multimodal(第一个输入)
- Embedding2到Recurrent 是一个循环神经网络到Multimodel(第二个输入)
- 图像通过卷积神经网络提取特征之后到Multimodel(第三个输入)
- Multimodel 通过softmax 得到结果,得到一个新的词

hn 是对图像提取的特征
hn + 一个词 得到 y1
hn + y1 得到y2
以此类推
总结

这篇博客介绍了百度的多模态图像生成文本模型,该模型能够结合多种信息输入,包括词语、图像特征等。首先,通过TableProjection和全连接层将词语转化为向量,接着使用循环神经网络和卷积神经网络分别处理文本和图像信息。这些信息在Multimodal层融合,通过softmax输出新的词汇。模型以递归方式生成文本,不断迭代更新输入的词向量,直至完成整个序列的生成。
4964

被折叠的 条评论
为什么被折叠?



