谷歌FLAN-T5作者亲讲：5400亿参数，1800个任务，如何实现大语言模型“自我改进”...

智源社区

于 2022-11-25 13:38:01 发布

阅读量3.3k

点赞数 4

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/128047117

版权

谷歌研究人员提出了一种新的指令微调方法，通过5400亿参数的大模型和1800多个任务，实现了语言模型的自我改进能力。该方法涉及Chain of Thought机制，增强模型的推理和解释性。通过指令微调，模型在多项任务中表现出色，甚至超越人类水平。研究者强调，指令微调比预训练和Prompt工程更有效，且大模型可以自我生成问题并自我学习，提升性能。

摘要由CSDN通过智能技术生成

2021年，谷歌的研究者们提出了FLAN大模型，其基于Instruction Tuning的方式，极大地提升了大语言模型的理解能力。同时，各种Prompting方法的涌现预示着针对大模型的下游微调将成为研究领域关注的重点。

近日，谷歌研究者们再一次推进了Instruction Tuning的性能水平，模型模型参数上升至540B，微调任务的数量则高达1800多个，此外他们还采用了最新的Prompting机制——Chain of Thought（CoT），让语言模型有了自我改进的能力。

智源社区邀请了该工作的主要研究者——谷歌软件高级工程师侯乐博士。请他讲解新型微调方式在提升大规模语言模型性能方面的思路。

侯乐

侯乐博士近期在Google的研究主要集中在NLP方面，包括高效的语言模型训练、指令微调和提示工程等。他的一个核心兴趣是通过更好的微调和提示工程来提高最先进语言模型的推理能力。在加入谷歌之前，侯乐在纽约州立大学石溪分校获得了博士学位。博士在读期间，他专注于分析高分辨率图像，如卫星和医学图像。

作者：侯乐

整理：白鹏

“

背景：从Fine-tune到Prompting，

提升大模型性能方法有多少？

3-4年前的语言模型主要是用具体的数据在特定任务上训练，比如翻译任务，通过大量训练数据来训练翻译模式。

BERT出现以后，先有了Pretrain然后再进行Finetune。预训练时候会训练模型对语言的理解能力，比如BERT是一个Mask Language model。如果是只有解码器的模型，那就让模型做Next token prediction，比如已知“你好”，让模型预测“吗”。预训练后做下游的具体任务效果会好很多。

随着GPT-3等大模型出现，Language model（LM）变成了Large Language model（LLM），会出现新的应用方法，就是In-context few-shot learning。由于训练数据集有“问题1，解答1。问题2，解答2。”这样的数据存在，模型可以自动预测下一句。例如模型输入是“Hello, world！（你好，世界！）How are you?”，模型可以预测出“你好吗？”。所以这样的模型是一个In-context的样例学习模式，例子是什么格式，模型可以做Next token prediction。这样学习的好处是可能很少的训练样本就可以让大语言模型微调训练的很好。