Prompt Learning详解

最新推荐文章于 2025-03-23 22:01:59 发布

Lyttonkeepgoing

最新推荐文章于 2025-03-23 22:01:59 发布

阅读量1.1w

点赞数 19

分类专栏：论文阅读笔记文章标签：深度学习机器学习人工智能 python nlp

本文链接：https://blog.csdn.net/m0_53292725/article/details/124201005

版权

本文深入探讨了预训练模型（如BERT）的工作原理，以及NLP领域中对比学习和Prompt技术的兴起。Prompt作为一种微调方法，通过构建语言模板，将下游任务转化为类似预训练任务的形式，如'中午我吃了大盘[MASK]'期望输出'鸡'。文章介绍了Prompt的两种形式：离散Prompt和连续Prompt，并分析了它们在模板设计、标签映射和参数优化上的差异。此外，文章还讨论了Prompt在小样本学习中的优势，以及如何通过Prompt减少微调新参数，提高模型泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现阶段NLP最火的两个idea 一个是对比学习（contrastive learning）另一个就是 prompt

prompt 说简单也很简单看了几篇论文之后发现其实就是构建一个语言模板但是仔细想想又觉得复杂总感觉里面还有很多细节因此我想从头到尾梳理一下prompt 很多地方会把它翻译成[范式] 但是这个词本身不好理解我个人更倾向于看作是模板

首先我们要知道预训练模型（Bert为首）到底做了什么？

我觉得是预训练模型提供了一个非常好的初始化参数这组参数在预训练任务上的表现非常好（预训练损失非常低）但是由于下游任务千奇百怪我们需要在这组参数的基础上进行 Fine-tune 以适应我们的下游任务（使得下游任务的损失值非常低）目前做 NLP 任务的大致流程即 "Pre-train, Fine-tune"，而对我们来说实际上大部分时候都是直接拿别人预训练好的模型做 Fine-tune 并没有 Pre-train 这一步融入了 Prompt 的模式大致可以归纳成 "Pre-train, Prompt, and Predict"，在该模式中下游任务被重新调整成类似预训练任务的形式 ok 下面我们举例说明