Multi-Model RNN模型

这篇博客介绍了百度的多模态图像生成文本模型,该模型能够结合多种信息输入,包括词语、图像特征等。首先,通过TableProjection和全连接层将词语转化为向量,接着使用循环神经网络和卷积神经网络分别处理文本和图像信息。这些信息在Multimodal层融合,通过softmax输出新的词汇。模型以递归方式生成文本,不断迭代更新输入的词向量,直至完成整个序列的生成。
摘要由CSDN通过智能技术生成

这是百度提出的图像生成文本模型
请添加图片描述
Multi-Modal:他的输入是一个组合了多种信息的输入

  1. 输入一个词
  2. 通过Table Projection将一个词语Embedding 成一个128的向量Embedding1
  3. 通过全连接层到了将128的向量转成了256的向量 Embedding2
  4. Embedding2经过全连接到Multimodal(第一个输入)
  5. Embedding2到Recurrent 是一个循环神经网络到Multimodel(第二个输入)
  6. 图像通过卷积神经网络提取特征之后到Multimodel(第三个输入)
  7. Multimodel 通过softmax 得到结果,得到一个新的词

请添加图片描述
hn 是对图像提取的特征
hn + 一个词 得到 y1
hn + y1 得到y2
以此类推

总结

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>