©PaperWeekly 原创 · 作者 | 黄一天
单位 | 华为
研究方向 | 自然语言处理
由香港科技大学提出的针对闭源大语言模型的对抗蒸馏框架,成功将 ChatGPT 的知识转移到了参数量 7B 的 LLaMA 模型(命名为 Lion),在只有 70k 训练数据的情况下,实现了近 95% 的 ChatGPT 能力近似。此外,框架的普适性使它不仅可以用于蒸馏 ChatGPT,还可方便地适用于其他闭源 LLMs。
论文题目:
Lion:闭源大语言模型的对抗蒸馏
Lion: Adversarial Distillation of Closed-Source Large Language Model
论文链接:
https://arxiv.org/abs/2305.12870
项目地址:
https://github.com/YJiangcm/Lion
出发点
能够遵循自然语言指令的大型语言模型(Large Language Models, LLMs)已经在 zero-shot 任务的泛化中表现出了巨大的成功。由于各种考虑,最先进的 LLMs,如 ChatGPT 和 GPT-4,这些拥有数百上千亿参数的模型,通常是闭源的(包括模型参数和训练数据)。
为了弄清楚他们复杂的运行机制,很多研究工作聚焦于将闭源的“老师”大语言模型的知识蒸馏到开源的“学生”语言模型中。这通常是通过对齐学生模型的响应与教师模型对一组指令的响应来完成的,这些指令可以手动或自动生成。例如,Vicuna 的训练指令是从 ShareGPT 网站收集的 70k 用户与 ChatGPT 的对话;Alpaca 的训练指令是通过 self-instruct 的方法自动生成,等等。
然而,前人工作的缺点在于,他们仅采用了一种单向的知识传递方法(如下图中的实线箭头)。在这种方法中,老师向学生传递知识