LLM推理必备参数，全网最详尽解析！一文掌握核心要点

最新推荐文章于 2025-05-15 11:04:43 发布

AGI大模型学习

最新推荐文章于 2025-05-15 11:04:43 发布

阅读量699

点赞数 15

文章标签：人工智能学习大模型 llama 大模型应用 LLM 大模型学习

本文链接：https://blog.csdn.net/2401_84495872/article/details/145315777

版权

top_k，不管是greedysearch，还是beamsearch，对于固定输入，模型的输出是固定不变的，这就显得比较单调，为了增加模型输出的多样性，人们提出了top-k采样策略，其不像greedysearch那样每次取分数最高的，而是先选出分数最高的k个，然后将其分数作为权重进行随机采样，得到下一个Token。这也就引入了随机性，每次预测的结果都可能不一样。

在top_k中，每次都是从k个Token中采样，但是难免会出现一些特殊的case，比如某一个Token的分数非常高，其他分数都很低，此时仍旧会有一定的概率采样到那些分数非常低的Token，导致生成输出质量变差。此时，如果k是可变的，那么就可以过滤掉分数很低的Token，在The Curious Case of Neural Text Generation.中，作者提出了top_p采样，在每个step中，都对输出分数进行排序，然后将分数从大到小累加，直到累加分数大于设置的p为止，然后和top_k类似，将每个选择出来的Token的分数作为权重进行随机采样。这样，每次候选的Token个数都会因为Token分数的分布不同而不一样。

temperature事实上，在top_k和top_p的采样中并不是完全按照分数权重来采样的，一般采样前我们会将候选Token的得分向量经过softmax（公式如下图）转换为概率，然后按照概率分布采样。

repetition_penalty（重复惩罚），这个选项最早是由A Conditional Transformer Language Model for Controllable Generation中提出的，其是为了解决语言模型中重复生成的问题，即使比较大的LLM也会存在。其思想比较简单，就是记录之前已经生成过的Token，当预测下一个Token时，人为降低已经生成过的Token的分数，使其被采样到的概率降低。

通过以上的介绍，大概知道了各个参数的含义，整体来说：

GreedySearch是最简单、最直接的方式，其可以保证稳定的输出，相应的，BeamSearch可以进一步提升生成效果，但是代价更高，也是可以保证稳定的输出。

top_p和top_k都可以用于增加模型生成结果的多样性，输出结果往往会变。

温度系数temperature一般用于控制随机性，temperature越大，随机性越强，temperature越小，随机性越弱。

重复惩罚repetition_penalty用于避免模型一直输出重复的结果，repetition_penalty越大，出现重复性可能越小，repetition_penalty越小，出现重复性可能越大。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述