可能与深度学习跨媒体相关的几篇文章

本文概述了几篇关于深度学习在跨媒体领域的应用文章,包括DeViSE的视觉语义嵌入模型,Deep Boltzmann Machines在文本语义表示上的进步,基于Stacked AutoEncoders的多模态检索方法,以及Multimodal Neural Language Models和Multimodal Recurrent Neural Networks在图像描述生成和跨媒体检索中的创新。这些研究探索了如何将图像和文本数据映射到统一的语义空间,以实现更有效的检索和生成任务。
摘要由CSDN通过智能技术生成

几篇经典的就不说了,最近看了下面几篇文章,也许能够有点启发

DeViSE: A Deep Visual-Semantic Embedding Model
主要工作:实现一个deep visual-semantic embedding model同时使用标注的图像数据和文本的语义信息来进行目标识别
主要贡献:使用文本数据学习不同label之间的语义关联,将图像映射到一个语义空间中,能够对未知的category预测label
评价:这篇文章主要还是做的类似目标识别的工作,先分别预训练了两个图像和文本的模型,然后再映射到他自己的embedding model中进行统一度量

Modeling Documents with Deep Boltzmann Machines
主要工作:实现一个DBM来提取文本的语义表示
主要贡献:提出了一个新的模型Over-Replicated Softmax model,在原有的Replicated Softmax model的基础上,增加了一个hidden units层,提升了模型性能,在training和performance上达到平衡。

Effective MultiModal Retrieval based on Stacked AutoEncoders
主要工作:实现stacked auto-encoders来将不同模态的高维特征映射到一个低维的统一空间
主要贡献:目标函数同时考虑modal内部和modal之间的语义关联,需要很少的prior knowledge
评价:其实并没有看出太大的贡献之处,对于文本和图像两个modal分别得到两个stacked auto-encoders(SAE)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值