可能与深度学习跨媒体相关的几篇文章

最新推荐文章于 2021-11-01 16:31:05 发布

TimSeven

最新推荐文章于 2021-11-01 16:31:05 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：深度学习跨媒体

本文链接：https://blog.csdn.net/u014235133/article/details/48211923

版权

本文概述了几篇关于深度学习在跨媒体领域的应用文章，包括DeViSE的视觉语义嵌入模型，Deep Boltzmann Machines在文本语义表示上的进步，基于Stacked AutoEncoders的多模态检索方法，以及Multimodal Neural Language Models和Multimodal Recurrent Neural Networks在图像描述生成和跨媒体检索中的创新。这些研究探索了如何将图像和文本数据映射到统一的语义空间，以实现更有效的检索和生成任务。

摘要由CSDN通过智能技术生成

几篇经典的就不说了，最近看了下面几篇文章，也许能够有点启发

DeViSE: A Deep Visual-Semantic Embedding Model
主要工作：实现一个deep visual-semantic embedding model同时使用标注的图像数据和文本的语义信息来进行目标识别
主要贡献：使用文本数据学习不同label之间的语义关联，将图像映射到一个语义空间中，能够对未知的category预测label
评价：这篇文章主要还是做的类似目标识别的工作，先分别预训练了两个图像和文本的模型，然后再映射到他自己的embedding model中进行统一度量

Modeling Documents with Deep Boltzmann Machines
主要工作：实现一个DBM来提取文本的语义表示
主要贡献：提出了一个新的模型Over-Replicated Softmax model，在原有的Replicated Softmax model的基础上，增加了一个hidden units层，提升了模型性能，在training和performance上达到平衡。

Effective MultiModal Retrieval based on Stacked AutoEncoders
主要工作：实现stacked auto-encoders来将不同模态的高维特征映射到一个低维的统一空间
主要贡献：目标函数同时考虑modal内部和modal之间的语义关联，需要很少的prior knowledge
评价：其实并没有看出太大的贡献之处，对于文本和图像两个modal分别得到两个stacked auto-encoders(SAE)

最低0.47元/天解锁文章

TimSeven

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
可能与深度学习跨媒体相关的几篇文章

可能与深度学习跨媒体相关的几篇文章几篇经典的就不说了，最近看了下面几篇文章，也许能够有点启发DeViSE: A Deep Visual-Semantic Embedding Model 主要工作：实现一个deep visual-semantic embedding model同时使用标注的图像数据和文本的语义信息来进行目标识别主要贡献：使用文本数据学习不同label之间的语义关联，将图像映射到
复制链接

扫一扫