[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

文章探讨了如何通过蒸馏技术使小规模语言模型(如OPT-1.3B)获得chain-of-thought(CoT)能力,通过few-shot-CoT方式和多个rationale样本的使用显著提升了模型性能。然而,实验设计中关于蒸馏数据集大小的保持问题值得进一步讨论。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

文章链接

虽然CoT作为一种prompt形式在提高LLM的表现上有很好的效果,但此前有研究表明CoT并不能在小规模的LM(参数<60B)上达到较好的效果,而作者却通过蒸馏的方式将大模型的CoT知识传授给小模型,从而让OPT-1.3B这样的模型也获得了CoT能力。

在这里插入图片描述
对于一个训练样本 x x x,作者将其作为输入给到LLM,用few-shot-CoT的方式令其输出答案 y y y和rationale z z z,注意作者并不是让LLM输出一个就了事,而是让其输出了多组进行采样,最后一个 x x x可以对应30个 ( y , z ) (y,z) (y,z)的组合。同时这里的 y y y并不一定是对的,作者设了有gold label和无gold label两个baseline。下表展示了蒸馏后的结果,可以看到提升非常明显,full因为提供了golden label因此表现更好。
在这里插入图片描述
作者发现这种一个问题多个rationale的数据蒸馏使得学生模型的效果变得更好,取样数从1到30的过程中有明显提升,如下图所示。
在这里插入图片描述
不过我认为这个实验有不太严谨的地方,作者没有说在缩减单个样本的rationale采样数的时候有没有维持整个蒸馏数据集的大小不变,如果是直接把数据集规模缩减到1/30,那有可能不是一个样本只有一个rationale的问题,而是蒸馏数据集大大缩水的问题。后面作者补充了一个实验,可以看到应该是没有保证总的数据集大小不变的,1x和30x的曲线差了30倍的蒸馏数据量,有gap也很正常,不一定是一个sample+多个rationale的影响。
在这里插入图片描述
之后还有一些别的对蒸馏数据集改动的实验,此处略。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ShadyPi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值