文章主要内容总结
该论文系统综述了大型语言模型(LLM)在测试时扩展(Test-Time Scaling, TTS)的最新研究进展,提出了一个四维分析框架(What, How, Where, How Well),并对现有方法进行了结构化分类和深入分析。主要内容包括:
-
四维框架:
- What to Scale:明确测试时扩展的具体形式,分为并行扩展(生成多解)、序列扩展(逐步推理)、混合扩展(结合前两者)和内部扩展(模型自主分配计算)。
- How to Scale:探讨实现方法,包括微调(监督微调、强化学习)和推理策略(刺激生成、验证、搜索、聚合)。
- Where to Scale:应用场景覆盖推理密集型任务(数学、编程、科学)和通用任务(开放问答、多模态、代理任务ÿ