【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记

一、概述

这篇文章做的是多模态分类任务——也就是融合视觉和文本特征,并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制,提出了一种基于门控神经网络的多模态学习新模型。 门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元,其目的是根据来自不同模态的数据的组合找到中间表示。 GMU 学习使用乘法门来决定模态如何影响单元的激活。

我们提出的模块基于门的想法,用于选择输入的哪些部分更有可能有助于正确生成所需的输出。 我们使用同时为各种特征分配重要性的乘法门,创建不需要手动调整的丰富的多模态表示,而是直接从训练数据中学习。

这项工作的主要假设是,与手动编码的多模态融合架构相比,使用门控单元的模型将能够学习一种依赖于输入的门控激活模式,该模式决定了每种模态如何对隐藏单元的输出做出贡献 .

二、模型

请添加图片描述
每个 xi 对应一个与模态 i 相关的特征向量。 每个特征向量都为神经元提供一个 tanh 激活函数,该函数旨在根据特定的模态对内部表示特征进行编码。 对于每个输入模态 xi,都有一个门神经元(在图中由 σ 节点表示),它控制从 xi 计算的特征对单元整体输出的贡献。 当一个新样本被馈送到网络时,与模态 i 相关的门神经元接收来自所有模态的特征向量作为输入,并使用它们来决定模态 i 是否有助于特定输入的内部编码 样本。

图 2.b 显示了用于两种输入模态 xv(视觉模态)和 xt(文本模态)的 GMU 的简化版本,将在本文的其余部分中使用。 应该注意的是,这两个模型并不完全等效,因为在双峰情况下,门是绑定的。 这种权重绑定限制了模型,因此单元在两种模式之间进行权衡,同时它们使用的参数少于多模式情况。 控制这个 GMU 的方程如下:
请添加图片描述
这里要说明一下之所以用两种激活函数,即tanh和sigmoid的原因:

  1. sigmoid 用在了各种gate上,产生0~1之间的值,这个一般只有sigmoid最直接了。
  2. tanh 用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 多模态信息抽取是指从多种不同数据形式中自动抽取和提取信息。这些数据形式可以是图像、文本、语音、视频和其他类型的数据。2022/2023年的多模态信息抽取将会突破目前的技术瓶颈,实现更高效、更准确的信息提取,以满足日益增长的人工智能应用需求。 在未来的多模态信息抽取的应用中,将会出现更多基于人工智能技术的语义理解、机器翻译、图像分析、语音识别、自然语言处理、情感分析等领域的研究和应用。这些应用将会更加智能化、便捷化、高效化,能够更好地解决人类面临的各种问题。例如,在医疗领域中,通过多模态信息抽取技术可以更精准地诊断疾病,提高治疗效果和生存率。在智慧交通领域中,多模态信息抽取技术可以更准确地掌握路况,提高交通安全和效率。 然而,实现多模态信息抽取的过程中还面临着一些瓶颈,例如数据稀缺性、多模态数据不同步、特征融合难度等问题。未来的研究方向将会围绕如何更好地融合多种数据形式,提高数据的可靠性和精准度,提高多模态信息抽取的整体性能。 总之,未来的多模态信息抽取将会更加便捷、高效、准确地解决人类面临的各种问题。多模态信息抽取的发展将会继续推动人工智能技术的进步和应用。 ### 回答2: 2022/2023多模态信息抽取是指将来人工智能领域的一项新技术。随着信息的不断增长和多样化,如何从大量的数据中提取有价值的信息已经成为业界的一个重要难点。传统的信息抽取技术在处理大规模多模态数据时容易出现信息传递不完整,信息重复等问题,这严重阻碍了人工智能技术在现实生活中的应用。 为了解决这个难题,科研人员开始探索多模态信息抽取的技术。所谓多模态,是指同一类信息可以通过多种传感器或方式获得,比如图像、声音、文本等。多模态信息抽取的核心思想是将不同类型的信息进行融合,增加对大数据的理解能力和整体把握能力。 在实际应用时,多模态信息抽取技术可以应用到如下领域:医疗健康、智能安防、金融等。比如,在医疗领域中,多模态信息抽取技术可以利用医疗图像、生理数据、病历记录等多种数据源,全面分析患者的病情,提供精准治疗方案。在智能安防领域中,多模态技术可以通过视频图像、声音、人脸识别等多种手段,进行智能监控,并及时报警快速处置。 总之,2022/2023多模态信息抽取技术的发展将提高智能技术的整体效能,为科技创新、社会发展提供新契机。同时,随着技术的不断优化,多模态信息抽取技术的应用场景和范围也将不断拓展。 ### 回答3: 2022/2023多模态信息抽取是指同时从多种不同的文本、图片、视频、语音等媒介中提取信息的过程。随着信息技术的不断发展和人们对各个方面信息需求的不断增加,多模态信息抽取成为了提高信息处理效率和准确性的一种有效手段。在2022/2023年,多模态信息抽取技术将会继续得到发展和应用。 多模态信息抽取技术的目的是将多种不同类型的信息汇聚起来,进行有效的分类、解析和提取,以便更好地理解这些信息的含义和意义。这项技术的应用范围非常广泛,包括金融、医疗、教育、舆情监测、交通管理等领域。在金融领域,多模态信息抽取可以对市场趋势、金融分析等方面做出更加准确的判断;在医疗领域,多模态信息抽取可以对病例资料、医疗图像等进行分析,提高诊断准确率;在教育领域,多模态信息抽取可以对学生学习状态和课堂表现进行分析,为教学提供更具参考性的数据支持。 随着深度学习和自然语言处理技术的发展,多模态信息抽取的研究和应用也将不断深入。未来,多模态信息抽取技术将会实现更加高效、高准确的信息处理和提取,为各个领域的发展和智能化进程注入更大的活力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值