解码策略
1. sample实现了怎样的功能
不是直接选择概率最大的token,而是根据多项式分布进行采样获得下一个token
这里的概率通过设置一些策略,进行处理。例如,解码最小长度(当长度小于该值的时候,eos的采样概率为0),top-k设置(小于top-k阈值的采样概率为0),温度参数(对采样概率进一步处理)
2. contrastive_search实现了怎样的功能
为了增加解码的多样性,在生成token时,即考虑生成概率分布,还要考虑和前面生成的token之间的差异性,选择相似度较小的token