RANKGEN: Improving Text Generation with Large Ranking Models论文

RANKGEN: Improving Text Generation with Large Ranking Models

简介

核心在于提高生成模型的生成质量。方式是:对抗训练的方法。(train RANKGEN using large-scale contrastive learning with in-batch negative sampling)
负例构建方式是:(1)从与prefix相同的document中,随机选择序列;(2)从大规模语言模型中生成负例(在给定prefix为condition的情况下)

问题

现有的大规模语料,由贪婪解码或波束搜索产生的高概率(低困惑)序列往往是枯燥和重复的。

现有的一些解决方法有:top-k(Fan等人,2018)、nucleus(Holtzman等人,2020)和典型抽样(Meister等人,2022)等截断抽样方法缓解了这些问题,但它们也可能产生具有不一致、幻觉、事实错误或常识问题的文本(Massarelli等人,2020;Dou等人,2022;Krishna等人,2021)。

解决

训练了一个1.2B 参数的encoder,将人手写的prefix和模型生成的连续空间的prefix映射到一个共享的vector space中,然后,RankGEN的目标是,将prefix与真实ground truth直接的距离减小,与生成的对抗性的prefix的距离拉大。
这和原始的PLM的encoder模型的训练过程是不同的,我们的目标是考虑两个序列,而不仅仅是单个标记的预测,它鼓励RANKGEN考虑前缀和续篇之间的长距离关系,而不仅仅是依赖局部的预测。

对抗性实例生成方法

在第一个策略中,INBOOK,我们选择在同一文件中出现的随机序列作为前缀(生成的prefix的长度需要控制到和ground truth contiunations相同的长度)
在第二种策略中,即GENERATIVE,我们以一个给定的前缀作为条件,通过大型的预训练的LM产生连续输出。( we generate continuations by conditioning a large pretrained LM on a given prefix)

在这里插入图片描述

训练数据构建

在对抗语料生成后,训练数据可以表示为三元组的形式《p,c,g》,分别代表prefix,ground-truth continuation of that prefix,a continuation generated by an LM,为了作为区分,在prefix部分添加了一个特殊的token(pre),在连续和生成的部分,添加了特殊的token(suf )

数据选择:

考虑了文件中所有长度在256个word的prefix(为了使得prefix覆盖到文件的begin和end位置),为每个prefix,选择了contunations ci,长度在10-128个words,为了产生negatives,首先使用50%的(p,c)pairs微调T5模型,之后,使用剩余的数据,产生对抗数据。

推断:

在inference阶段,是通过计算prefix和候选continual之间的dot product作为兼容分值的。这个分值是可以被用来辅助生成任务的,主要通过两种策略,
一是,过生成和重排名,通过PLM生成过量的备选,然后,通过计算dot product,对candidate做rerank.
二是,在beam search的过程中,不在使用标准波束搜索中解码策略,(在standard beam search中,是通过LM的predict probability计算的分值),二是采用RankGen模型计算的score,作为beam search的排名依据。

模型

整个模型的过程如下,3个步骤:
step1: 给定一个prefix,生成N个samples.
step2:对N个samples做排名
step3:选择top-B的samples,和prefix做concatenate操作。
在这里插入图片描述

实验结果

我觉得,比较有意思的部分,是分析RankGen这个模型,从哪些方面提高了模型的效果。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值