Prompt
文章平均质量分 80
北在哪
这个作者很懒,什么都没留下…
展开
-
论文笔记:WARP: Word-level Adversarial ReProgramming
1. 大体框架与以往工作的不同:1)prompt在连续空间内优化,不在要求转换为离散token;2)prompt token 既可插在句子前部、尾部,也可插在句子内部;3)不使用训练好的MLM参数,直接取mask位置输出embedding与各个标签词的embedding做相似度计算,然后softmax:4)只训练prompt embedding以及标签词的embedding,其他参数固定。2. 实验结果...原创 2021-10-22 17:30:53 · 859 阅读 · 0 评论 -
论文笔记:BERTese: Learning to Speak to BERT
论文链接:BERTese: Learning to Speak to BERT - ACL Anthology代码开源:暂无1. 概要这篇论文和How Can We Know What Language Models Know?研究的问题一样,旨在找到更好的提示,从而提高从预训练模型中提取世界性知识的准确率。主要思想是训练一个模型,对原有的提示进行重写,然后再输入预训练模型中进行预测,大体框架如下:2. 核心算法论文将重构提示的模型称为rewri...原创 2021-10-21 22:53:12 · 334 阅读 · 0 评论 -
论文笔记:How Can We Know What Language Models Know?
论文链接:https://arxiv.org/abs/1911.12543代码开源:GitHub - jzbjyb/LPAQA: Language model Prompt And Query Archive原创 2021-10-20 09:38:57 · 1345 阅读 · 0 评论 -
论文笔记:Universal Adversarial Triggers for Attacking and Analyzing NLP
论文链接:https://arxiv.org/abs/1908.07125代码开源:https://github.com/Eric-Wallace/universal-triggers1. 主要内容将输入与一段提示拼接,即可引导模型输出想要的结果,且提示是与输入无关的,任意输入拼接上相同的提示,都大概率会产生特定的结果。如上图所示,对于情感分析任务,拼接trigger(即提示)会导致模型将正确的预测翻转为否定。对于阅读理解任务,拼接trigger会导致...原创 2021-10-19 17:04:36 · 1528 阅读 · 0 评论 -
论文笔记:PPT: Pre-trained Prompt Tuning for Few-shot Learning
论文链接:https://arxiv.org/abs/2109.04332代码开源:暂无1. 介绍两种主流的微调(FT)方法:面向任务的微调(传统微调)和面向提示的微调,如上图b、c所示。两种方法都需要微调整个模型的参数,但随着模型规模的快速增长,为每个下游任务微调一个完整的大型模型变得越来越昂贵。为此,谷歌提出 prompt tuning (PT) 概念,如上图d所示。具体来说,PT 使用由连续嵌入组成的软提示(soft prompt)而不是...原创 2021-10-18 21:10:35 · 3850 阅读 · 1 评论 -
论文笔记:GPT Understands, Too
1. 介绍原创 2021-10-13 22:50:29 · 1155 阅读 · 1 评论 -
论文笔记:Prefix-Tuning: Optimizing Continuous Prompts for Generation
1. 介绍在某些情况下,GPT-3可以在没有任何特定任务调整的情况下部署。用户只需预先准备一个自然语言任务指令(例如摘要任务的指示为:TL;DR)和一些例子拼接到输入,然后就可以从LM生成输出。这种方法被称为情境学习(in-context learning)或提示(prompting)。受到提示的启发,这篇论文提出了Prefix-tuning——一个自然语言生成 (NLG) 任务微调的轻量级替代方案。如下图所示,Fine-tuning更新transformer...原创 2021-10-13 18:12:40 · 1889 阅读 · 4 评论 -
论文笔记:Making Pre-trained Language Models Better Few-shot Learners
1.动机GPT-3 仅仅通过 一个自然语言提示(prompt)和 少量的任务示例就可以作出正确的预测,在Zero-shot、One-shot和Few-shot的场景下展现出了优秀的性能。通常情况下BERT这类微调模型总是需要一些样例来更新模型的参数从而让模型更加适应当前的任务,但是GPT-3可以通过不使用一条样例的Zero-shot、仅使用一条样例的One-shot和使用少量样例的Few-shot来完成推理任务。下面是对比微调模型和GPT-3三种不同的样本推理形式图:但是拥有1750亿参数的GPT-.原创 2021-10-08 22:11:31 · 2264 阅读 · 4 评论 -
论文笔记:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
1. 介绍论文提出了Pattern-Exploiting Training (PET),将小样本场景下的监督学习和提供任务描述相结合,把具体任务转换成了完形填空任务。具体框架如下:(1)为输入示例创建多个patterns,以将输入示例转换为完形填空题;对不同pattern的输入,分别使用预训练模型进行微调。(2)将上述得到的所有模型进行融合,对未标注数据进行标注。(3)在得到的软标签数据集上训练分类器。...原创 2021-10-11 22:23:29 · 2553 阅读 · 1 评论