Contrastive Decoding: Open-ended Text Generation as Optimization
----
对比解码:开放式文本生成作为优化
斯坦福大学1、华盛顿大学2、卡内基梅隆大学、约翰霍普金斯大学4、FAIR5
摘要
给定语言模型(LM),对于开放式生成来说,最大概率是一个很差的解码目标,因为它会产生简短且重复的文本。另一方面,采样通常会产生偏离原始主题的不连贯的文本。我们提出了对比解码(CD),这是一种可靠的解码方法,可以在合理性约束下优化对比目标。对比目标返回大型 LM(称为专家,例如 OPT-13B)和小型 LM(称为业余爱好者,例如 OPT-125M)下的可能性之间的差异,并且约束确保输出是合理的。 CD 的灵感来自于这样一个事实:较大的 LM 的失败(例如,重复、不连贯)在较小的 LM 中更为普遍,并且这种差异表明应该优先选择哪些文本。 CD 需要零额外训练,并且比单独从较大的 LM 解码生成更高质量的文本。它还可以跨模型规模(OPT-13B 和 GPT2-1.5B)工作,并且在维基百科、新闻和故事领域的自动和人工评估中显着优于四种强大的解码算法(例如,nucleus、top-k)。
1 简介
开放式文本生成旨在为给定提示制作流畅且连贯的文本延续,为写作辅助和故事生成等各种下游应用奠定基础(Brown 等人,2020)。规范方法通常从大型预训练语言模型中采样(Holtzman et al., 2020; Fan et al., 2018; Radford et al., 2019),但由于采样选择不幸,生成的文本很容易出现不连贯和主题漂移的情况长序列上的化合物(Eikema 和 Aziz,2020;Maynez 等人,2020)。另一方面,搜索最可能的序列通常会产生简短、重复且乏味的文本(Holtzman et al., 2020),这表明最大化概率是一个错误的解码目标。
我们提出了一种新的基于搜索的方法,即对比解码(CD),它可以生成流畅且词汇多样的文本,而不会影响连贯性。如图 1 所示,对比解码采用现成的大型语言模型,如 OPT-13B(我们称之为专家)和现成的较小语言模型,如 OPT-125M(我们称之为专家)。业余)。 CD 搜索最大化专家对数概率和业余对数概率之间差异的文本,但受到似真性约束的约束,该约束将搜索空间限制为专家 LM 下具有足够高概率的标记。