【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记

最新推荐文章于 2023-06-28 17:18:55 发布

CC‘s World

最新推荐文章于 2023-06-28 17:18:55 发布

阅读量2.3k

点赞数 1

分类专栏：多模态文章标签：深度学习计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36643449/article/details/124964390

版权

多模态专栏收录该内容

25 篇文章 10 订阅

订阅专栏

一、概述

这篇文章做的是多模态分类任务——也就是融合视觉和文本特征，并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制，提出了一种基于门控神经网络的多模态学习新模型。门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元，其目的是根据来自不同模态的数据的组合找到中间表示。 GMU 学习使用乘法门来决定模态如何影响单元的激活。

我们提出的模块基于门的想法，用于选择输入的哪些部分更有可能有助于正确生成所需的输出。我们使用同时为各种特征分配重要性的乘法门，创建不需要手动调整的丰富的多模态表示，而是直接从训练数据中学习。

这项工作的主要假设是，与手动编码的多模态融合架构相比，使用门控单元的模型将能够学习一种依赖于输入的门控激活模式，该模式决定了每种模态如何对隐藏单元的输出做出贡献 .

二、模型

请添加图片描述
每个 xi 对应一个与模态 i 相关的特征向量。每个特征向量都为神经元提供一个 tanh 激活函数，该函数旨在根据特定的模态对内部表示特征进行编码。对于每个输入模态 xi，都有一个门神经元（在图中由 σ 节点表示），它控制从 xi 计算的特征对单元整体输出的贡献。当一个新样本被馈送到网络时，与模态 i 相关的门神经元接收来自所有模态的特征向量作为输入，并使用它们来决定模态 i 是否有助于特定输入的内部编码样本。

图 2.b 显示了用于两种输入模态 xv（视觉模态）和 xt（文本模态）的 GMU 的简化版本，将在本文的其余部分中使用。应该注意的是，这两个模型并不完全等效，因为在双峰情况下，门是绑定的。这种权重绑定限制了模型，因此单元在两种模式之间进行权衡，同时它们使用的参数少于多模式情况。控制这个 GMU 的方程如下：
请添加图片描述
这里要说明一下之所以用两种激活函数，即tanh和sigmoid的原因：

sigmoid 用在了各种gate上，产生0~1之间的值，这个一般只有sigmoid最直接了。
tanh 用在了状态和输出上，是对数据的处理，这个用其他激活函数或许也可以。

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记

一、概述这篇文章做的是多模态分类任务——也就是融合视觉和文本特征，并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制，提出了一种基于门控神经网络的多模态学习新模型。门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元，其目的是根据来自不同模态的数据的组合找到中间表示。 GMU 学习使用乘法门来决定模态如何影响单元的激活。我们提出的模块基于门的想法，用于选择输入的哪些部分更有可能有助于正确生成所需的输出。我们使用同时为各种特征分配重要性的乘法门，创建不需要手动调整的丰富
复制链接

扫一扫

专栏目录

CC‘s World CSDN认证博客专家 CSDN认证企业博客

码龄8年

280: 原创

23万+: 周排名

50万+: 总排名

25万+: 访问

: 等级

3399: 积分

113: 粉丝

132: 获赞

42: 评论

833: 收藏

私信

关注

热门文章

分类专栏

Python 2篇
机器学习 27篇
广告系统 2篇
推荐系统学习 2篇
多模态 25篇
Keras 18篇
算法 11篇
计算机基础 9篇
工程应用 7篇
推荐算法 40篇
PySpark 9篇
C++ 14篇
论文阅读 4篇
TensorFlow 12篇
力扣 54篇
自然语言处理 5篇
MXNet 1篇
Pytorch 13篇
数据结构 2篇
剑指offer编程题 67篇
计算机视觉 1篇

最新评论

【算法】局部敏感哈希 LSH 的 Python 实现
不断生长: 想问一下，这个局部敏感哈希和位置敏感哈希(location sensitive hash)是一样的吗？
【算法】局部敏感哈希 LSH 的 Python 实现
柚子树cc: 后面两个minhash的验证应该使用Jaccard距离吧，找出来的topk明显不太对
【算法】局部敏感哈希 LSH 的 Python 实现
m0_56951613: 最近在学lsh，看了这篇文章有两个问题想问问博主 1、e2lsh不是需要L个哈希函数族，每族k个哈希函数吗，感觉你的代码里好像只有一个哈希函数族，不知道是不是我理解错了 2、经过lsh筛选后，只比较前20个数据的话确实看起来精确度很高，但我输出了candidates发现其实筛选后还有8，9000个数据，也就是说只排除了1000多个数据，我试过其他人的代码，但基本都有这个问题，要保证精确度的话筛选掉的数据量就会很小，想要筛选完的数据量小的话精确度就会很低，是这算法原本的目的就是在海量数据集里筛选掉一小部分的数据吗，还是调参没调好导致效果太差？
【计算机基础】github使用 & git命令
朗197: 帮助很大，非常感谢！！！
【论文阅读】Adaptive Mixtures of Local Experts
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。