读文章笔记(十二):图文音三模态预训练模型

前言

多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能的路径探索,其具有在无监督情况下自动学习不同任务、并快速迁移到不同领域数据的强大能力。

近年来,互联网音视频数据呈高速增长,占比超过80% [1],纯文本的预训练模型只涵盖了互联网数据中的较少部分,更丰富的语音、图像、视频等数据并未被充分利用与学习,且人类的信息获取、环境感知、知识学习与表达,都是通过多模态信息方式来执行的。

目前,已有的多模态预训练模型通常仅考虑两个模态(如图像和文本,或者视频和文本),忽视了周围环境中普遍存在的语音信息,并且模型极少兼具理解与生成能力,难以在生成任务与理解类任务中同时取得良好表现。

三模态预训练模型基本原理

团队首次提出了视觉-文本-语音三模态预训练模型,实现了三模态间相互转换和生成。其核心原理是:视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制(Multi-head Self-attention)学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,然后通过多头自注意力机制进行通过解码器分别生成文本、图像和语音。

多层次多任务自监督预训练学习

此次提出的三模态预训练模型由单模态编码器、跨模态编码器和跨模态解码器构成。针对图文音三模态数据,我们提出三级预训练自监督学习方式:词条级别 (Token-level,Modality-level),模态级(Modality-level masking)以及样本级别(Sample-level masking) 。具体包括:
(1)词条级别(Token-level)学习
a. 文本掩码建模(Masked Language Modeling):随机掩盖一些文本单词,需要模型根据上下文预测被掩盖的单词是什么;
b. 视觉掩码建模(Masked Vision Modeling):随机掩盖一些图像区域,让模型预测被掩盖的区域;
c. 语音掩码建模(Masked Audio Modeling):随机掩盖一些语音词条(token),模型需要预测被掩盖的词条(token)是什么。
(2)模态级别(Modality-level)学习
包括文本重构和图像重构两个任务,分别学习重构输入文本和图像。团队引入模态级别掩码(Modality-Level Masking)机制随机地掩盖一个模态信息,使得模型需要根据其他模态信息对当前模态进行重构,从而能够进行下游的跨模态生成任务。这个机制也带来另一个好处—它使我们的模型不仅能够处理三模态输入,也能处理两模态输入,从而适应下游的两模态任务。
(3)样本级别(Sample-level)学习
该预训练任务是通过对每个样本随机地替换三种模态信息中的一种或两种,让模型来预测替换哪些模态。

实验结果

数据集

Open Images数据集=作为预训练数据,该数据包含图像、文本与音频数据。此外我们也额外地使用两模态数据,如Conceptual Caption图文数据集,Visual Genome图文数据集等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值