Generating Training Data with Language Models: Towards Zero-Shot Language Understanding

最新推荐文章于 2024-07-12 23:11:20 发布

YingJingh

最新推荐文章于 2024-07-12 23:11:20 发布

阅读量155

点赞数 1

分类专栏：论文记录文章标签：语言模型人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hekena/article/details/131164101

版权

论文记录专栏收录该内容

147 篇文章 9 订阅

订阅专栏

文章目录

文章思想
模型细节

文章思想

PLM有两种形式，一种是Unidirectional PLMs(类似于GPT)，一种bidirectional PLMS（类似于Bert）。

文章提出**利用两种PLM实现zero shot的NLU task，**即分类任务。

A unidirectional PLM generates class-conditioned texts guided by prompts, which are used as
the training data for fine-tuning a bidirectional PLM

大致来说，是利用GPT模型在给出prompt下的情况下，生成训练文本。
然后利用BERT 模型对上述文本进行分类，完成下游任务。

在这里插入图片描述

模型细节

1. valid dataset

在这里插入图片描述

2. 生成模型的repeat 生成的问题

one approach is to discourage repetition by reducing the logits of tokens that are already in the sequence before performing sampling
在这里插入图片描述

通过设置α<1和β>1，我们可以促进x s中未在x g中出现过的代币有更大的机会被生成，并阻止x g中重复代币的生成，以减轻退化性重复。

3. 生成数据的选择

选择最可能与所需标签y有关的生成文本x g。
在这里插入图片描述
在计算数据instance的概率时，使用算数平均作为概率值。

在这里插入图片描述

4. regularization

label smoothing trains the classifier Cφ to minimize the standard cross-entropy loss between the label and the classifier’s prediction
在这里插入图片描述

temporal ensembling：我们在不同的训练步骤中记录Cφ对每个训练样本(x g , y)的预测pφ = pφ(x g )，并使用累积的移动平均预测值z¯来规范最新的模型训练。
在这里插入图片描述

最终的训练函数：从模型预测中加入KL发散正则化项，以λ为权重的合集预测。
在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Generating Training Data with Language Models: Towards Zero-Shot Language Understanding

我们在不同的训练步骤中记录Cφ对每个训练样本(x g , y)的预测pφ = pφ(x g )，并使用累积的移动平均预测值z¯来规范最新的模型训练。通过设置α<1和β>1，我们可以促进x s中未在x g中出现过的代币有更大的机会被生成，并阻止x g中重复代币的生成，以减轻退化性重复。最终的训练函数：从模型预测中加入KL发散正则化项，以λ为权重的合集预测。大致来说，是利用GPT模型在给出prompt下的情况下，生成训练文本。在计算数据instance的概率时，使用算数平均作为概率值。
复制链接

扫一扫

专栏目录

YingJingh CSDN认证博客专家 CSDN认证企业博客

码龄4年

343: 原创

2万+: 周排名

7433: 总排名

25万+: 访问

: 等级

4108: 积分

1973: 粉丝

211: 获赞

49: 评论

679: 收藏

私信

关注

热门文章

分类专栏

最新评论

word中避免无引用源的方法
hx0520: 摸索了一下mac系统锁定域,按command+fn+f11
PDF相关的处理操作
haakaa: csdn这段确实好用
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
小阳不一样666666: 请问作者你复现成功了嘛？我按照论文设置超参数，但是对于ace2005效果只有0.84没有论文的0.86，这是我设置的情况：--task_type=ner --task_save_name=ner111 --data_dir=./data/ace2005 --data_name=ace2005 --model_name_or_path=D:/YangCode/data/bert-large-cased --model_name=SERS --output_dir=./outmodel --result_dir=./result --do_lower_case=False --first_label_file=./data/ace2005/processed/label_map.json --train_set=./data/ace2005/processed/train.json --dev_set=./data/ace2005/processed/dev.json --test_set=./data/ace2005/processed/test.json --label_str_file=./data/ace2005/processed/label_annotation.txt --overwrite_output_dir=True --exist_nested=True --do_train=True --is_chinese=False --val_step=20 --use_attn=True --seed=42 --max_seq_length=128 --dropout_rate=0.1 --learning_rate=3e-5 --task_layer_lr=2 --num_train_epochs=20能帮忙看看问题所在嘛？
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
YingJingh: 那得看你的环境和论文中的环境一不一致
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
小阳不一样666666: 你好，请问这个代码你运行起来了嘛？能咨询你一下嘛？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YingJingh 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。