参数量110亿，附赠750GB数据集，Google提NLP预训练模型T5-CSDN博客

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/102752401

640?wx_fmt=png

整理 | Just，夕颜

出品 | AI科技大本营（ID:rgznai100）

近日，Google 在最新一篇共有 53 页的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》中，提出了一个最新的预训练模型 T5（全称 Text-To-Text Transfer Transformer），其参数量达到了 110 亿，要知道 Bert Large 模型的参数量不过才 3.4 亿，是后者的 32 倍多。

640?wx_fmt=png

Google 还放出了源代码：

GitHub 链接：

https://github.com/google-research/text-to-text-transfer-transformer

论文：

https://arxiv.org/abs/1910.10683

尽管文章主题是探索迁移学习的局限性，但其做了大量的预训练模型试验对比。这篇论文太长，亮点可以笼统概括为以下两大部分。

最新预训练模型 T5

640?wx_fmt=png

T5 库里主要是用于用文本到文本的 Transformer 来重现探索迁移学习极限实验的代码。此存储库中的大部分代码用于加载、预处理、混合和评估数据集。它还提供了一种方法来微调发布的预训练模型。

T5 提供了有用的模块来训练和微调 text-to-text 混合任务的模型，可以作为未来模型开发的库。

研究人员通过大规模语料库上训练了几种基于 Transformers 的模型，以评估其文本到文本方法的有效性。

640?wx_fmt=png

T5 登顶 GLUE 和 SUPERGLUE

这个最大的模型 T5 包含多达 110 亿个参数，或进行预测时所需的模型内部配置变量。研究人员表示，他们对各种语言任务进行了微调，并在 GLUE 和阅读理解基准 SQuAD和CNN / Daily Mail上取得了最新分数为 89.7。他们还在 SuperGLUE 上进行了测试，该基准包含了一些比当前 NLP 系统更加困难的任务，得分为 89.8，表现可媲美人类。

关于 T5 的所有测试结果都在论文最后一页。“你说你有足够多的算力？那你把这个表格复现一下？”

640?wx_fmt=png

“买 T5 送 750GB 的 C4 数据集”

T5 模型的成功除了庞大参数量的助力，还包括 Google 研究人员开源的一个新数据集 Colossal Clean Crawled Corpus，简称 C4。顺便说一句，Google 真会起名。

Google研究人员称，将 T5 这个有史以来最大的模型之一提交到通用语言理解评估（GLUE）基准并进行测试后，他们在涵盖问题解答、文本分类等任务上获得了 SOTA 结果。

据称，T4 数据集源于 Common Crawl 项目，该项目每个月会从网络上爬取大约 20 TB 的英文文本。为了过滤出乱码、样板菜单和错误消息，它们仅保留以终端标点符号（句点、感叹号、问号或结束引号）结尾的文本行，同时删除带有明显填充文本和重复项的页面。结果，他们宣称得到一个比大多数用于预训练数据集都大一个数量级的 T4 数据集，约为 750 GB。

然而，Google 团队坦陈，他们的模型在诸如翻译之类的语言任务中表现不尽人意，将原因归结为特定任务数据相对缺乏和训练规模不足。因此，他们提倡使用较小的模型实现更强性能的方法，让迁移学习发挥最大的效能。

该论文的合著者写道：“我们的研究得出一个令人惊讶但重要的结果，那就是较大的模型往往表现更好。用于运行这些模型的硬件价格越来越低，功能却越来越强大，这一事实表明，扩大规模可能仍然是实现更好性能的有效方法。但是，在某些应用程序和场景中，使用较小或较便宜的模型更有效这一现象总是存在的，例如在执行客户端推断或联合学习时。”

网友评价

有知乎网友评论称，这篇论文更多是“大力出奇迹”的结果，有钱可以为所欲为，但内容上没有新意，没有惊喜。最大的意义就是为 NLP 预训练领域目前基本所有方法做了一个系统性的综述和实验对比。

另有网友调侃，Google的这一篇论文估计半路截杀了好几十篇正在酝酿中的 paper。“Google——nlp的灯塔，普通nlper毁灭者。”

你觉得呢？

更多技术详情，还需要你自己啃一遍论文，不，也许需要好几遍。

参考链接：

https://venturebeat.com/2019/10/24/google-achieves-state-of-the-art-nlp-performance-with-an-enormous-language-model-and-data-set/

（*本文为 AI科技大本营整理文章，请微信联系 1092722531）