普林斯顿陈丹琦：如何让「大模型」变小

智源社区

于 2022-07-22 11:59:03 发布

阅读量205

点赞数

文章标签：算法大数据自然语言处理编程语言 python

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/125942528

版权

导读：“Making large models smaller”这是很多语言模型研究人员的学术追求，针对大模型昂贵的环境和训练成本，陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势；而后者可以在保证下游任务准确度的同时实现更快的处理速度，具有更小的模型结构。

陈丹琦

普林斯顿大学计算机科学系助理教授

陈丹琦于2012年毕业于清华大学姚班，2018年获得斯坦福大学计算机科学博士学位，师从斯坦福大学语言学和计算机科学教授 Christopher Manning。

整理：路啸秋

审校：夏梦舟、钟泽轩（陈丹琦团队）

背景介绍

近年来，自然语言处理领域正在迅速被大语言模型所主导。自从GPT 3问世以来，语言模型的规模呈现指数级增长。大型科技公司不断发布越来越大的语言模型。近期，Meta AI发布了OPT语言模型（一个蕴含了1750亿参数的大型语言模型），并向公众开放了源代码和模型参数。

研究学者们之所以如此推崇大语言模型，是因为它们出色的学习能力和性能表现，但是人们对于大语言模型的黑盒性质仍了解甚少。向语言模型输入一个问题，通过语言模型一步一步地推理，能够解决非常复杂的推理问题，比如推导出计算题的答案。但与此同时，大型语言模型也存在着风险，特别是它们的环境和经济成本，例如：GPT-3 等大规模语言模型的能源消耗和碳排放规模惊人。

面对大语言模型训练成本昂贵、参数量庞大等问题，陈丹团队希望通过学术研究缩减预训练模型的计算量并且让语言模型更有效率地适用于下层应用。为此重点介绍了团队的两个工作，一个是一种语言模型的新型训练方法称之为TRIME，另一个是一种适用于下游任务的有效模型剪枝方法称之为CofiPruning。

团队工作介绍：TRIME、CofiPruning

论文地址：https://arxiv.org/abs/2205.12674

传统语言模型的训练流程如下：给定一段文档，将其输入到Transformer编码器中得到隐向量，进而将这些隐向量输送到softmax层，该层输出为由V个词嵌入向量组成的矩阵，其中V代表词汇量的规模，最后可以用这些输出向量对原先的文本进行预测，并与给定文档的标准答案进行比较计算梯度，实现梯度的反向传播。然而这样的训练范式会带来以下问题：

（1）庞大的Transformer编码器会带来高昂的训练代价；

（2）语言模型输入长度固定，Transformer的计算量规模会随着序列长度的变化呈平方级增长，因此Transformer很难处理长文本；

（3）如今的训练范式是将文本投影到一个固定长度的向量空间内来预测接下来的单词，这种训练范式实际上是语言模型的一个瓶颈。