由百度研发团队最先提出来的
多模态数据,不同传感器对同一事物的描述数据,比如说,相机、X光、红外线对同一个场景同一个目标照出的图片
将一个词embedding成一个128维的向量,再经过一个全连接层变成一个256维的向量
然后embedding2,再经过一个全连接,到了Multimodal层
同时,embedding2也输入到Recurrent这个RNN中去,得到的输出也输入到Multimodal层
同时,还有一个图像经过CNN提取出来的特征通过全连接层,输入输入到Multimodal层
这三方输入进行拼接,拼接成一个大向量
embeddingA就是embedding1,B就是2
图像生成文本(三) —— Multi-Modal RNN模型(多模态)
最新推荐文章于 2024-03-28 10:36:39 发布