(模型蒸馏)MCC-KD: Multi-CoT Consistent Knowledge Distillation
MCC-KD在所有数学推理任务(如GSM8K、ASDiv、SVAMP)中超过了当前的基线方法,并在相似规模的模型中表现出显著的改进。这表明MCC-KD在处理常识推理任务方面的有效性。思维链的多样性和一致性一直是需要改进的方向,文章提出了MCC-KD方法,致力于为每个问题生成多个理由,强调理由需要在对应的预测中保持一致性,并通过实验验证了方法的有效性,也提到了一些潜在的局限性,随着理由数量的增多,前期性能有较大的提升,当理由数量超过5,提升效果就不明显了,因此综合计算效率考虑将实验中使用的理由数量设置为5。
原创
2024-04-02 14:54:12 ·
405 阅读 ·
0 评论