Pretrained Transformers As Universal Computation Engines Kevin笔记

最新推荐文章于 2024-06-18 19:37:49 发布

飞花穿庭

最新推荐文章于 2024-06-18 19:37:49 发布

阅读量306

点赞数

分类专栏： # 实验探索类文章标签：深度学习自然语言处理 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eternal_city/article/details/126133308

版权

Pretrained Transformers As Universal Computation Engines Kevin

Abstract

在文本上预训练了的transformers可以轻松拓展到其他模态

1 Introduction

假设transformers在一个data-rich的模态预训练后，就能够迁移至其他模态。

验证假设时，finetune只调输入输出的线性层，pos emb和layer norm的参数,用FPT简称Frozen Pretrained Transformer。

结果显示它比直接在下游从头训练的transformers或者LSTM结果好且收敛更快。

2 Methodology

2.1 Tasks

实验使用了多种模态的分类任务

Bit memory：给定5个长度1k的bit串，每位以0.5的概率mask，任务是预测被mask的bit
Bit XOR：给定两个长度为5的bit串，判断xor。
ListOps：给定一系列的操作，判断最后输出的数字
MNIST
CIFAR-10
CIFAR-10 LRA：CIFAR-10变成了灰度图且被flatten掉（去掉了位置信息）
Remote homology detection：预测蛋白质的折叠

2.2 Architecture

输出层：单层linear

输入层：单层linear

layer norm：微调

pos emb：微调（几乎没有收益，但计算代价也很小）

transformer是base的大小

3 Empirical Evaluations

3.1 Can pretrained language models transfer to different modalities?

迁移的模型达到了和在下游任务上从头开始训练的transformer近似的效果
从头开始的base大小的transoformer是很难在小数据上收敛的，而迁移的模型不仅很容易收敛，而且增大模型尺寸后会有显而易见的效果提升

3.2 What is the importance of the pretraining modality?

虽然预训练方式不同，但只要有，就比随机初始化的模型效果好且收敛快。
虽然对图像的预训练对图像的下游任务更友好，但对文本的预训练

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Pretrained Transformers As Universal Computation Engines Kevin笔记

在文本上预训练了的transformers可以轻松拓展到其他模态。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。