Min P Sampling: Balancing Creativity and Coherence at High Temperature阅读笔记

上一篇文章是关于大语言模型的调参数,写了temperature这个参数近期的一个工作。那接下来,就不得不再来讲讲top-p这个参数啦。首先还是上文章,同样是非常新的一个工作,2024年7月1日submit的呢。

文章链接:https://arxiv.org/abs/2407.01082

GitHub链接:GitHub - menhguin/minp_paper: Code Implementation, Evaluations, Documentation, Links and Resources for Min P paper

简而言之,这篇文章的作者们提出了一种min P的采样方式,来让大语言模型生成的输出更加能够保证文本的连贯性和质量,且一定程度上能生产出更有创造性和多样化的文本内容。首先,咱们看看top p采样是干啥的,一句话就是The cumulative probability cutoff for token selection。我们需要从模型的概率分布中选择一组 token,使得这些 token 的累计概率达到或超过 p。例如,设定 p=0.9,那么就对那些累计概率总和达到 90% 的 token 进行采样。具体步骤的话:

  • 排序:将所有 token 按照其概率从大到小排序。
  • 累积概率:计算这些 token 的累积概率。
  • 选择子集:选择累积概率达到 p 的最小子集。
  • 重新归一化:对选择的子集进行归一化,使得它们的概率总和为 1。
  • 采样:从归一化后的子集中随机采样一个 token。

但是呢,这种采样方式会有一些缺点:采样概率p如果设置太低,模型的输出就会太固定,因为横竖就只有那几个单词。设置太高,模型输出太过混乱,会把一些无关词采样进来。

然后,我们看看作者给出的min-p采样效果的示意图:

可以看到,min p达到的效果是这样的:

第一张图和第三张图,只有前几个token概率极高,后面的token概率都是一样的小的时候,min p采样集中只关注高概率的那些token。

第二张图和第四张图,当各个token的概率大家看起来都差不多的时候,则尽可能多的进行采样以保证有一定的多样性。

接着,咱们看看min p是咋做的:

首先,采样的对象是在概率大于等于Pscaled上的数据进行的,Pscaled的计算方式则是利用相对概率值Pbase乘以最大概率值Pmax,所有满足的token采样后概率进行归一化,再随机采样。文章给出了两个利用min-p采样后的示例:

确实一定程度上达到了作者描述的那个效果呢。另外,作者还做了具体的文本生成任务实验,分别是Graduate-level reasoning、Grade School math和Creative Writing。效果当然也是呱呱叫啦,具体大家可以去看一下文章,不过最后作者指出了工作的缺点,首先文章只用了Mistral 7B模型,并没有尝试其他的模型,所以结论的鲁棒性还是持疑一下。另外,再Creative Writing这个任务上,从如何衡量创新性的角度上来看,测评不够严谨。

anyway,可能还是希望大语言模型保守点好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值