测试时计算策略(BON, stepwiseBON, beamsearch, lookahead,混合方法，计算最优扩展,过程奖励模型引导，多数投票)

zhurui_xiaozhuzaizai

已于 2025-01-10 18:00:18 修改

阅读量1.2k

点赞数 26

分类专栏：自然语言处理文章标签：算法

于 2024-12-25 17:10:28 首次发布

本文链接：https://blog.csdn.net/weixin_36378508/article/details/144677319

版权

、Step-wise BoN、Self-Refine、Agent Workflow

一测试时计算

测试时计算（test-time compute），也称为推理计算，是指 LLM 生成提示响应时使用的计算资源。与用于创建和完善模型本身的训练计算不同，每次使用模型时都会应用测试时间计算。
研究表明，通过在推理过程中战略性地分配这些计算资源，组织可以从其现有的语言模型中获取更多价值，而无需承担与大规模训练相关的大量成本。

"开源代码：https://github.com/huggingface/search-and-learn
参考链接：[1]https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute[2]https://x.com/_lewtun/status/1868703456602865880

2.1 BoN（Best-of-N）【一次生成多个选择最好的】

是一种在推理阶段增强大模型（LLM）性能的测试时计算方法，即通过在推理阶段生成和选择多个候选响应来提高LLM的性能，从而弥补单纯增加模型参数带来的性能提升瓶颈。
不过，BON方法，主要依赖于两个变量，一个是奖励模型的能力，一个是搜索空间N的大小，前者能力越强，效果越好，后者不一定越大越好，越大空间越大，时耗越大，奖励模型的判定范围就越大，越难选择。
其实现步骤如下：

生成多个响应

选择最好的。奖励模型根据某种预定义的标准（如相关性、准确性等）给出评分。

最后，优化推理过程。通过搜索多个可能的响应，BoN方法能够在推理阶段找到更优的答案，而不是仅仅依赖于单一的直接输出。这种方法展示了在推理阶段通过扩展时间来搜索更多可能响应的必要性。

最佳 N 抽样在提示工程中的应用：

为同一任务生成略有变化的多个提示。

使用 LLM 为每个提示变体生成响应。

根据预定义标准或单独的评估模型选择最佳响应。

RAG 管道中的应用：

检索给定查询的“N”个相关文档或段落。

使用每个检索到的项目作为上下文生成响应。

使用质量指标或相关性分数选择最佳响应。

在这种方法中，RAG 管道利用多个检索到的文档或段落来生成不同的响应。通过根据质量或相关性选择最佳响应，系统增加了为用户查询提供准确且信息丰富的答案的可能性：