TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读

前言

好吧我又来更新sota 论文了 这个是多模态情感分析的sota 而且和第二名相差很大。

摘要

多模态语言分析是NLP的一个新兴领域,旨在同时建模说话人的单词语义、语音和面部表情。在这方面,语义通常优于其他模态,因为它们是通过基于Transformer的模型在大型语料库上预先训练的。
尽管他们的表现很好,但由于数据不足,在任何模型上训练一个新的自监督学习(SSL)Transformer通常是不可能实现的,这在多模态语言学习中就是如此。
这项工作提出了一个基于Transformer的语音前缀语言模型,称为TRASTEL,以在不训练完整Transformer的情况下接近上述约束。
与传统的语言模型相比,TEASEL模型除了文本模态之外,还包括作为动态前缀的语音模态。
该方法利用传统的预训练语言模型作为跨模态Transformer模型。我们评估了由CMU-MOSI数据集定义的多模态情绪分析任务的TRANSEL。大量的实验表明,我们的模型在F1分数上优于单模态基线语言模型4%,优于当前的多模态最新(SoTA)模型1%。此外,我们提出的方法比SoTA模型小72%。

模型结构

在这里插入图片描述

文本模态

  • 使用RoBERTa 作为文本特征提取器

    在这里插入图片描述

语音模态

  • 使用 wav2vec 2.0 来提取声音特征
    在这里插入图片描述
  • 使用Lightweight Attentive Aggregation 增强上下文表示
    在这里插入图片描述
    因为wav2vec 是预训练的模型, 对于特征提取可能还是提取一个偏通用的特征, 所以 在上层再加入一个 轻量级的特征提取器进行更狭义的提取。

Lightweight Attentive Aggregation

主要包括以下几步

  • 进行layer norm
    在这里插入图片描述
  • 通过双向GRU 获取特征双向表示
    在这里插入图片描述
  • 对双向语义进行Attention 合并
    在这里插入图片描述
    Ca 表示 前向特征的加权特征 和 后向特征的加权特征

训练过程

阶段1: 预训练

模型的输入是
在这里插入图片描述
声音作为前缀输入, 然后直接放到Roberta 的 encoder中 进行预训练
其中Ca 表示的 是 两个输入 一个前向输入, 一个后向输入

阶段2: 下游finetune

在预训练完之后,固定权重, 用 CLS的结果用于上游finetune

效果

效果有点过于好了
在这里插入图片描述

预训练细节

  • 100 hours of LIBRISPEECH in 8,000 cumulative steps (9 epochs)
  • fine-tuned TEASEL on CMU-MOSI with 3 epochs.

超参选择
learning rates in range of {1e- 0.10, 0.2, 0.3, 0.4, 0.5}
batch sizes in the range of {8, 16,32}
warm-up steps using {0%, 10%, 20%, 30%, 40%}

总结

  • 大道至简, 没有繁琐的预训练输入, 非常的朴素的输入
  • 有点像prompt里面的一种 , 前缀prompt
  • 看起来单用robert 的情感分析效果已经很不错了
  • 有点像ViT的感觉
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 18
    评论
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值