sqlserver text最大长度_T5 模型:NLP Text-to-Text 预训练模型超大规模探索

谷歌发布的T5模型在NLP领域引起了轰动,其通过将所有任务转化为文本到文本的形式,提供了一个通用框架。论文通过大量实验,包括模型架构、预训练目标的探索,表明了Transformer Encoder-Decoder模型的优势。T5使用了大规模的C4数据集,并通过多任务学习、模型规模扩展等方法提高了性能。在GLUE、SuperGLUE等基准测试中取得SOTA,展示了大模型的重要性。
摘要由CSDN通过智能技术生成

5a5aa9b71d97968a0f2533028d152121.png

相信大多 NLP 相关者,在时隔 BERT 发布近一年的现在,又被谷歌刚发布的 T5 模型震撼到了。又是一轮屠榜,压过前不久才上榜自家的ALBERT,登上 GLUE 榜首。

当然,最大的冲击还是财大气粗,bigger and bigger,但翻完它长达 34 页的论文,发现其中的分析无疑是诚意满满(都是钱)。类似这样的大型实验探索论文也有一些,首先提出一个通用框架,接着进行了各种比对实验,获得一套建议参数,最后得到一个很强的 baseline。而我们之后做这方面实验就能参考它的一套参数。

对于 T5 这篇论文,Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,无疑也是类似的论文。它的意义不在烧了多少钱,也不在屠了多少榜(砸钱就能砸出来),其中 idea 创新也不大,它最重要作用是给整个 NLP 预训练模型领域提供了一个通用框架,把所有任务都转化成一种形式,正如论文里所说的

introducing a unified framework that converts every language problem into a text-to-text format.

之后未来做 NLP 实验时,可能就不再是自己怎么调一些模型了,而是无论什么任务,直接拿来一个超大预训练模型,然后主要工作就变成了怎么把任务转换成合适的文本输入输出,于是我们就成了带引号的”数据科学家“。而且可以用于多种任务,而模型对这些任务的区分只是根据你构建的输入输出形式,其实这让我想起 Jeff Dean 在某次谈话中谈到的谷歌未来方向,想做一个超级模型,什么任务都能直接处理,而它内部可以是稀疏的,或者可以局部 Distill,来对单独任务进行处理。

关于论文,作者们做了很多实验,如下图

ff64e8348ffdde4f80950ba42a770e76.png

将近七十个实验,这也是大家吐槽财大气粗的原因,太有冲击力了,小家小业的话估计跑里面个小实验就够呛了。

正因为如此多实验,所以才对预训练模型中的大量技巧获得了一个较公平的比对和分析,但这也使得整篇论文长度巨长,读起来头晕。不是 idea 的冲击,而都是些琐碎细节,看了几大段后发现,还是看图表一目了然。

这里就简单介绍一下里面做了哪些实验,之后各取所需回看论文。

Why Text-to-Text?

首先为什么叫 T5 模型,因为是 Transfer Text-to-Text Transformer 的简写,和 XLNet 一

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值