Generating Training Data with Language Models: Towards Zero-Shot Language Understanding

文章思想

PLM有两种形式,一种是Unidirectional PLMs(类似于GPT),一种bidirectional PLMS(类似于Bert)。

文章提出**利用两种PLM实现zero shot的NLU task,**即分类任务。

A unidirectional PLM generates class-conditioned texts guided by prompts, which are used as
the training data for fine-tuning a bidirectional PLM

大致来说,是利用GPT模型在给出prompt下的情况下,生成训练文本。
然后利用BERT 模型对上述文本进行分类,完成下游任务。

在这里插入图片描述

模型细节

1. valid dataset

在这里插入图片描述

2. 生成模型的repeat 生成的问题

one approach is to discourage repetition by reducing the logits of tokens that are already in the sequence before performing sampling
在这里插入图片描述

通过设置α<1和β>1,我们可以促进x s中未在x g中出现过的代币有更大的机会被生成,并阻止x g中重复代币的生成,以减轻退化性重复。

3. 生成数据的选择

选择最可能与所需标签y有关的生成文本x g。
在这里插入图片描述
在计算数据instance的概率时,使用算数平均作为概率值。

在这里插入图片描述

4. regularization

label smoothing trains the classifier Cφ to minimize the standard cross-entropy loss between the label and the classifier’s prediction
在这里插入图片描述

temporal ensembling:我们在不同的训练步骤中记录Cφ对每个训练样本(x g , y)的预测pφ = pφ(x g ),并使用累积的移动平均预测值z¯来规范最新的模型训练。
在这里插入图片描述

最终的训练函数:从模型预测中加入KL发散正则化项,以λ为权重的合集预测。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值