零样本提示
如今,
经过大量数据训练
并调整指令
的LLM能够执行零样本任务
。
我们在前一节中尝试了一些零样本示例。
以下是我们使用的一个示例:
提示:
将文本分类为中性、负面或正面。
文本:我认为这次假期还可以。
情感:
输出:
中性
请注意,
在上面的提示中,
我们没有向模型提供任何示例
——这就是零样本能力
的作用。
指令调整
已被证明可以改善
零样本学习
指令调整
本质上是在通过指令描述的数据集
上微调模型
的概念。
此外,
RLHF(来自人类反馈的强化学习)
已被采用以扩展指令调整
,
其中模型被调整以更好地适应人类偏好
。
这一最新发展推动了
像ChatGPT这样的模型。
我们将在接下来的章节中讨论所有这些方法
。
当零样本不起作用时,
建议在提示中提供演示或示例
,
这就引出了少样本提示
。
在下一节中,
我们将演示少样本提示
。