Pretrained Transformers As Universal Computation Engines Kevin笔记

Abstract

在文本上预训练了的transformers可以轻松拓展到其他模态

1 Introduction

假设transformers在一个data-rich的模态预训练后,就能够迁移至其他模态。

验证假设时,finetune只调输入输出的线性层,pos emb和layer norm的参数,用FPT简称Frozen Pretrained Transformer。

结果显示它比直接在下游从头训练的transformers或者LSTM结果好且收敛更快。

2 Methodology

2.1 Tasks

实验使用了多种模态的分类任务

  • Bit memory:给定5个长度1k的bit串,每位以0.5的概率mask,任务是预测被mask的bit

  • Bit XOR:给定两个长度为5的bit串,判断xor。

  • ListOps:给定一系列的操作,判断最后输出的数字

  • MNIST

  • CIFAR-10

  • CIFAR-10 LRA:CIFAR-10变成了灰度图且被flatten掉(去掉了位置信息)

  • Remote homology detection:预测蛋白质的折叠

2.2 Architecture

输出层:单层linear

输入层:单层linear

layer norm:微调

pos emb:微调(几乎没有收益,但计算代价也很小)

transformer是base的大小

3 Empirical Evaluations

3.1 Can pretrained language models transfer to different modalities?

  • 迁移的模型达到了和在下游任务上从头开始训练的transformer近似的效果
  • 从头开始的base大小的transoformer是很难在小数据上收敛的,而迁移的模型不仅很容易收敛,而且增大模型尺寸后会有显而易见的效果提升

3.2 What is the importance of the pretraining modality?

  • 虽然预训练方式不同,但只要有,就比随机初始化的模型效果好且收敛快。
  • 虽然对图像的预训练对图像的下游任务更友好,但对文本的预训练
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值