Google 提出了针对LLMs的高效探索
论文页面: https://huggingface.co/papers/2402.00396
展示了通过高效探索在收集人类反馈以改进大型语言模型方面的实质性好处。在我们的实验中,一个代理顺序地生成查询,同时将一个奖励模型拟合到接收到的反馈中。我们表现最佳的代理使用双 Thompson 采样来生成查询,不确定性由一个认知神经网络表示。我们的结果表明,高效探索使得能够在远少于查询数量的情况下达到高水平的性能。此外,不确定性估计和探索方案的选择都起着关键作用。