LLM-提示工程
文章平均质量分 92
LLM-提示工程
nopSled
一周一更
展开
-
Position Engineering: Boosting Large Language Models through Positional Information Manipulation翻译
大型语言模型 (LLM) 的最新进展表明,在实现通用人工智能方面取得了重大进展。这些模型展现出广泛的功能,例如上下文学习、根据文档回答问题、解决复杂的数学问题以及生成代码。在使用 LLM 时,用户提示被输入,转换成token序列,然后通过多个注意力层进行处理。这些注意力层使用从token序列中得出的两种信息:(i) 语义信息,其中token被转换为文本嵌入;(ii) 位置信息,其中token的索引被转换为位置嵌入。然后,注意力机制将文本和位置嵌入结合起来,以预测序列中下一个token的分布。翻译 2024-05-10 05:00:12 · 83 阅读 · 0 评论 -
System 2 Attention翻译
大型语言模型(LLM)能力很强,但它们仍然容易犯简单的错误,这似乎表现出较弱的推理能力。例如,它们可能会因不相关的上下文或输入提示中固有的偏好或意见而做出错误的判断,在后一种情况下,表现出一种称为“阿谀奉承”的问题,即模型与输入问题的观点一致。虽然有几种方法试图通过添加更多有监督训练数据或强化学习策略来缓解这些问题,但我们认为根本问题是 Transformer 本身的构建方式所固有的,特别是其注意力机制。翻译 2023-12-10 04:16:49 · 124 阅读 · 0 评论 -
Better Zero-Shot Reasoning with Self-Adaptive Prompting翻译
大型语言模型 (LLM) 的最新进展已在现有自然语言处理 (NLP) 任务中实现了最先进的性能,并带来了令人兴奋的新兴能力。后者的一个突出例子是在需要分析推理和/或有条理的规划任务上具有出色表现,而这些任务以前被认为即使对于大型LLM来说也很困难。这是通过扩展模型大小和训练语料库、现代LLM强大的few-shot和zero-shot能力以及诸如思想链(CoT)方法之类的新技术来实现的:Few-shot CoT 使用已解决的输入输出对作为上下文样例拼接到测试问题前,以提示LLM生成推理过程。翻译 2023-11-24 04:41:48 · 175 阅读 · 0 评论 -
LARGE LANGUAGE MODELS AS OPTIMIZERS翻译
优化对于所有领域都至关重要。许多优化技术都是迭代的:优化从初始解决方案开始,然后迭代更新解决方案以优化目标函数。优化算法通常需要针对单个任务进行定制,以应对决策空间和性能带来的特定挑战,尤其是导数无关的优化。在这项工作中,我们提出了 Optimization by PROmpting (OPRO),这是一种利用大型语言模型 (LLM) 作为优化器的简单有效的方法。随着提示技术的进步,LLM在各个领域都取得了令人印象深刻的表现。翻译 2023-09-15 03:15:42 · 380 阅读 · 0 评论 -
LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS翻译
模型规模和基于注意力网络结构的结合使语言模型具有前所未有的通用计算能力。这些所谓的“大型语言模型”(LLMS)在各种任务范围内(包括zero-shot和few-shot学习)表现出了显着的甚至是超越人类的能力。但是,有了通用性,就会出现一个控制问题:我们如何使LLMS做我们想让其做的事?为了回答这个问题,并指导LLM完成目标行为,最近的工作考虑了微调,in-context学习以及若干提示生成的形式,这包括基于软提示的可微分微调和自然语言提示工程。后者更受研究人员的关注,翻译 2022-12-02 14:22:52 · 1936 阅读 · 0 评论 -
Learning to Compress Prompts with Gist Tokens翻译
考虑一个诸如ChatGPT之类的Transformer语言模型(LM)的提示:ChatGPT每天有数百万用户进行询问,该提示会被自注意力机制一遍一遍的编码,其时间和空间复杂度是输入长度的二次方。缓存提示的transformer激活可以防止某些重新计算,但是随着缓存提示的数量的增加,该策略仍然会增加内存和存储成本。在大模型上,随着时间的推移,即使提示长度的少量减少也可能导致大量的计算,内存和存储的节省,同时还可以让用户将更多的内容输出到LM有限的上下文窗口中。我们如何降低提示的成本?翻译 2023-05-12 17:44:41 · 446 阅读 · 0 评论 -
Rethinking with Retrieval: Faithful Large Language Model Inference
大型语言模型(LLMS)通过任务无关的训练或微调在各种任务上表现出出色的性能。在提示和解码方面的最新进步使LLM可以解决需要复杂推理的任务。但是,LLM中存储的知识可能不可避免地不完整,过时或不正确。因此,诸如Wikipedia之类的外部知识对于成功部署现实世界应用模型可能是必不可少的。先前,人们试图将知识用于较小的语言模型(LMS),例如T5,BERT和RoBERTa。但是,这些方法通常需要额外的训练或微调,这对于LLM来说可能是昂贵的,因此不切实际。翻译 2023-02-10 16:29:40 · 541 阅读 · 0 评论 -
MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS翻译
自然语言处理(NLP)的最新进展可以归因于大语言模型(LLM)规模的增加。最近一个有趣发现的是,LLM是一个好的zero-shot或者few-shot学习器,并被证明非常有用。这导致了“提示”技术的发展,在该技术中,用户提供了一个小上下文,以求助LLM解决任务。模型以少量样例为条件被称为few-shot提示,另外通过提供指令来解决任务被称为zero-shot提示。更多的研究致力于进行提示的设计(手动或自动)。翻译 2023-05-02 16:23:45 · 184 阅读 · 0 评论 -
Tree of Thoughts: Deliberate Problem Solving with Large Language Models翻译
最初设计用于生成文本的语言模型(LMS)(例如GPT和PaLM)的扩展版本已被越来越多地证明能够执行需要数学,符号,常识性和知识推理各种广泛任务。令人惊讶的是,所有这些进步仍然是以原始自回归机制来生成文本,这是以token级的决策以从左到右的方式进行。如此简单的机制就足以使LM构建一个通用问题求解器吗?如果不是,哪些问题会对当前的范式产生挑战,并且应该有哪些替代机制?与人类认知相关的文献为回答这些问题提供了一些线索。翻译 2023-05-25 12:56:01 · 1102 阅读 · 0 评论