prompt engineering
文章平均质量分 88
不帅不是人2333
这个作者很懒,什么都没留下…
展开
-
论文翻译 | A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT (下)
4)示例实现:拒绝中断模式可以用以下短语来实现和应用:“每当你不能回答一个问题时,解释为什么,并提供一个或多个你不能回答的问题的替代措辞,这样我就可以改进我的问题。重要的是,这些规则必须符合法学硕士的能力。通过这个框架捕获的提示模式目录(1)提供了一种结构化的讨论提示解决方案的方式,(2)识别提示中的模式,而不是专注于特定的提示示例,并且(3)对模式进行分类,以便引导用户更高效和有效地与LLMs互动。此外,正如将在下面的示例中讨论的那样,指定可能的工具和格式列表并让LLM选择适当的可视化目标可能是有利的。原创 2024-10-17 19:52:15 · 716 阅读 · 0 评论 -
论文翻译 | A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT (上)
提示工程是一种越来越重要的技能集,需要与大型语言模型(LLMs)如ChatGPT进行有效对话。提示是对LLM的指令,用于执行规则、自动化流程,并确保生成输出的特定质量(和数量)。提示也是一种编程形式,可以自定义与LLM的输出和交互。本文描述了一套以模式形式呈现的提示工程技巧目录,这些技巧已被应用于解决与LLMs对话时的常见问题。提示模式是一种知识转移方法,类似于软件模式,因为它们为特定上下文中的常见问题提供可重用的解决方案,即在处理LLMs时的输出生成和交互。原创 2024-10-17 19:20:12 · 825 阅读 · 0 评论 -
论文 | Not what you’ve signed up for: Compromising Real-WorldLLM-Integrated Applications with Indirec
作者认为,LLM 集成应用程序模糊了数据和指令之间的界限,攻击者可以通过将恶意提示注入到用户可能检索到的数据中,间接地控制 LLM,从而造成各种安全风险。这篇论文揭示了 LLM 集成应用程序中存在的严重安全风险,并呼吁社区采取行动来加强安全防御,以确保 LLM 技术的可靠和安全使用。这篇论文探讨了大型语言模型 (LLM) 集成到应用程序中带来的安全问题,特别是针对。原创 2024-10-16 21:21:32 · 378 阅读 · 0 评论 -
论文翻译 | Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indir
大型语言模型(LLMs)正越来越多地被集成到各种应用程序中。最近LLMs的功能可以通过自然语言提示灵活调节。这使得它们容易受到针对性的敌对提示攻击,例如提示注入(PI)攻击允许攻击者覆盖原始指令和使用的控制。迄今为止,人们认为用户是直接提示LLM。但是,如果不是用户进行提示呢?我们认为,集成LLM的应用程序模糊了数据和指令之间的界限。我们揭示了新的攻击向量,使用间接提示注入,允许敌对者远程(没有直接接口)通过战略性地将提示注入可能被检索的数据来利用集成LLM的应用程序。原创 2024-10-16 20:49:36 · 1098 阅读 · 0 评论 -
论文 | OpenICL: An Open-Source Framework for In-context Learning
::OpenICL 论文提出了一个开源的上下文学习 (ICL) 框架,主要创新点如下::原创 2024-10-15 20:42:35 · 419 阅读 · 0 评论 -
论文翻译 | OpenICL: An Open-Source Framework for In-context Learning
近年来,上下文学习(In-context Learning,ICL)越来越受到关注,并已成为大型语言模型(Large Language Model,LLM)评估的新范式。与传统微调方法不同,ICL无需更新任何参数,即可将预训练模型适应于未见任务。然而,由于涉及多样的检索和推理方法,以及不同模型、数据集和任务的不同预处理需求,ICL的实现较为复杂。迫切需要一个统一且灵活的ICL框架,以简化上述组件的实施。为了促进ICL研究,我们推出了OpenICL,这是一个用于ICL和LLM评估的开源工具包。原创 2024-10-15 20:31:11 · 911 阅读 · 0 评论 -
论文 | LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS
这篇论文展示了一个有趣的想法,即利用 LLM 自动生成和选择指令,从而提高模型在下游任务中的性能。未来,我们可以进一步探索 APE 的应用场景,例如将其用于其他具有自然语言界面的模型,并开发用于优化提示长度的方法,以进一步降低成本。本文提出了一种名为 APE (Automatic Prompt Engineer) 的方法,旨在自动生成和选择用于指导大型语言模型 (LLM) 的指令。APE 是一种很有前景的方法,可以自动生成和选择用于指导 LLM 的指令。: 2023 年 ICLR 会议论文。原创 2024-10-14 16:31:20 · 488 阅读 · 0 评论 -
论文翻译 | LARGE LANGUAGE MODELS ARE HUMAN-LEVELPROMPT ENGINEERS
通过在自然语言指令上进行调节,大型语言模型(LLMs)已经展现出了作为通用计算机的惊人能力。然而,任务表现很大程度上取决于用于引导模型提示的质量,而最有效的提示通常是由人工精心设计的。受到经典程序合成和人类提示工程方法的启发,我们提出了自动提示工程师1(APE)用于自动指令生成和选择。在我们的方法中,我们将指令视为“程序”,通过搜索由LLM提出的指令候选池来优化,以最大化选定的评分函数。为了评估所选指令的质量,我们评估了另一个LLM在遵循所选指令的零样本表现。原创 2024-10-14 16:18:48 · 1342 阅读 · 0 评论 -
论文 | Context-faithful Prompting for Large Language Models
这篇文章通过实验证明了基于意见的提示和反事实演示可以有效提高 LLM 在特定语境下的忠诚度。这些方法可以帮助 LLM 更准确地理解上下文信息,并提供更可靠和更可信的答案。这篇文章主要探讨了如何提高大型语言模型 (LLM) 在特定语境下的“忠诚度”,即模型是否能准确理解并提供与上下文相符的答案。原创 2024-10-12 13:51:37 · 488 阅读 · 0 评论 -
论文翻译 | Context-faithful Prompting for Large Language Models
大型语言模型(LLMs)编码了关于世界事实的参数化知识,并在知识驱动的自然语言处理(NLP)任务中展现了卓越的性能。然而,它们对参数化知识的依赖可能会导致它们忽视上下文线索,进而在对上下文敏感的NLP任务(例如,知识获取任务)中做出错误的预测。在本文中,我们旨在评估并提升LLMs在两个方面的上下文忠实度:知识冲突和带保留的预测。我们展示,通过精心设计的提示策略,可以显著提高LLMs的忠实度。特别是,我们发现基于观点的提示和反事实演示是提升忠实度最有效的方法。原创 2024-10-12 13:34:14 · 992 阅读 · 0 评论 -
论文 | ART: Automatic multi-step reasoning and tool-use for large language models
LLM 在进行多步推理和工具使用时存在局限性,例如需要大量标注数据或专门训练。现有的 CoT 提示和工具使用方法难以扩展到新任务和工具。本文介绍了 ART 框架,该框架使用冻结的 LLM 自动生成推理步骤,并选择和调用外部工具。ART 在 BigBench 和 MMLU 基准测试中取得了显著的性能提升,并可以接受人类反馈进行改进。原创 2024-10-11 19:50:04 · 672 阅读 · 0 评论 -
论文翻译 | ART: Automatic multi-step reasoning and tool-use for large language models
大型语言模型(LLMs)通过生成中间的思考链(CoT)推理步骤,可以在少量和零样本设置中执行复杂的推理。此外,每个推理步骤都可以依赖外部工具来支持超出LLM核心能力的计算(例如搜索/运行代码)。先前关于CoT提示和工具使用的工作通常需要手工制作特定任务的演示,并仔细编排模型的生成与工具使用的交错。我们引入了自动推理与工具使用(ART)框架,该框架使用冻结的LLM自动生成作为程序的中间推理步骤。给定一个要解决的新任务,ART从任务库中选择多步骤推理和工具使用的演示。原创 2024-10-11 15:41:57 · 907 阅读 · 0 评论 -
论文翻译 | Fairness-guided Few-shot Prompting for LargeLanguage Models
大型语言模型已经显示出令人惊讶的执行上下文学习的能力,也就是说,这些模型可以通过对由几个输入输出示例构建的提示进行条件反射,直接应用于解决大量下游任务。然而,先前的研究表明,由于训练示例、示例顺序和提示格式的变化,上下文学习可能会受到高度不稳定性的影响。因此,构建恰当的提示对于提高语境学习的表现至关重要。在本文中,我们从预测偏差的角度重新审视这个问题。具体来说,我们引入了一个度量来评估固定提示对标签或给定属性的预测偏差。实证结果表明,偏差较大的提示往往导致预测质量不理想。原创 2024-10-10 16:22:09 · 1872 阅读 · 0 评论 -
论文 | GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks
现有 GNN 模型在下游任务中性能不佳,尤其是在标注数据稀缺的情况下。原创 2024-10-09 20:01:33 · 509 阅读 · 0 评论 -
论文翻译 | GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks
图可以为对象之间的复杂关系建模,支持无数的Web应用程序,例如在线页面/文章分类和社交推荐。虽然图形神经网络(gnn)已经成为图形表示学习的强大工具,但在端到端监督设置中,它们的性能严重依赖于大量特定任务的监督。为了减少标签要求,“预训练,微调”和“预训练,提示”的模式变得越来越普遍。在自然语言处理中,提示是一种流行的替代方法,它旨在以特定于任务的方式缩小预训练和下游目标之间的差距。然而,现有的图上提示的研究仍然有限,缺乏一种通用的处理方法来吸引不同的下游任务。在本文中,我们提出了一个新的图形预训练和提示框原创 2024-10-09 15:57:20 · 1122 阅读 · 0 评论 -
论文翻译 | Dynamic Prompting: A Unified Framework for Prompt Tuning
已经证明,在从预训练的基础模型中高效提取知识方面,提示调整(prompt tuning)技术是非常有效的,这些基础模型包括预训练的语言模型(PLMs)、视觉预训练模型以及视觉-语言(V-L)模型。然而,对于所有实例,无论它们内在差异如何,都使用固定软提示与输入拼接的预定位置的有效性仍然不明确。提示在不同实例和任务中的位置、长度和表示等变量,可能会显著影响提示调整的性能。在这种情况下,我们提供了一个理论分析,该分析显示,优化提示的位置以包含输入可以捕捉到传统的前缀或后缀提示调整方法无法捕捉的额外语义信息。原创 2024-10-07 21:34:47 · 1090 阅读 · 0 评论 -
论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust
论文比较了 MVP (Model-tuning Via Prompts) 和传统的 MLP-FT (Fine-tuning with an MLP head) 方法,发现 MVP 在对抗样本攻击下表现更鲁棒,平均提升 8% 的准确率,甚至在某些情况下超过了基于对抗训练的 SOTA 防御方法。论文通过人机实验发现,人类标注者更容易识别对抗样本,并且对抗样本的准确率和置信度都低于无对抗样本,说明 MVP 的鲁棒性提升是有效的。论文还定义了有效鲁棒性指标,用于衡量具有相同无对抗样本准确率的模型的鲁棒性。原创 2024-10-05 17:00:40 · 598 阅读 · 0 评论 -
论文翻译 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust
近年来,NLP从业者集中于以下实践:(i)导入现成的预训练(掩码)语言模型;(ii)在CLS令牌的隐藏表示(随机初始化权重)上附加多层感知器;(iii)在下游任务(MLP-FT)上微调整个模型。这一过程在标准的NLP基准上产生了巨大的收益,但这些模型仍然很脆弱,即使是轻微的对抗性扰动。在这项工作中,我们展示了通过提示进行模型调优(MVP)在对抗鲁棒性方面的惊人收获,这是一种适应下游任务的替代方法。MVP不是附加一个MLP头来进行输出预测,而是在输入中附加一个提示模板,并通过文本填充/完成进行预测。原创 2024-10-05 16:53:14 · 1489 阅读 · 0 评论 -
论文翻译 | Generated Knowledge Prompting for Commonsense Reasoning
整合外部知识是否有利于常识推理,同时保持预训练序列模型的灵活性,这仍然是一个悬而未决的问题。为了研究这个问题,我们开发了生成知识提示,它包括从语言模型生成知识,然后在回答问题时提供知识作为附加输入。我们的方法不需要对知识集成进行任务特定的监督,也不需要访问结构化知识库,但它提高了大规模的、最先进的模型在四个常识推理任务上的性能,在数字常识(NumerSense)、一般常识(CommonsenseQA 2.0)和科学常识(QASC)基准上取得了最先进的结果。原创 2024-10-04 16:18:39 · 1670 阅读 · 0 评论 -
论文翻译 | Language Models are Few-Shot Learners 语言模型是少样本学习者(下)
语言模型对社会有着广泛的有益应用,包括代码和写作自动补全、语法辅助、游戏叙事生成、提高搜索引擎响应以及回答问题等。但它们也可能有潜在的危害性应用。GPT-3在文本生成质量和适应性方面优于较小的模型,并且增加了区分合成文本与人类编写文本的难度。因此,它有可能推动语言模型的有益和有害应用的发展。 在这里,我们专注于改进语言模型的潜在危害,并不是因为我们认为这些危害必然更大,而是为了激发研究和减轻这些危害的努力。像这样的语言模型的影响是众多的。我们专注于两个主要问题:在第6.1节中,探讨了像GPT原创 2024-10-04 15:18:35 · 1348 阅读 · 0 评论 -
论文翻译 | Language Models are Few-Shot Learners 语言模型是少样本学习者(中)
在图3.1中,我们展示了第2节描述的8个模型的训练曲线。对于这个图表,我们还包括了6个额外的超小型模型,参数数量少至100,000。正如[KMH+20]中观察到的,当有效利用训练计算时,语言建模性能遵循幂律。在将这个趋势再延伸两个数量级之后,我们观察到只有轻微(如果有的话)偏离幂律。有人可能会担心,交叉熵损失的这些改进只是来自于对我们训练语料库中的虚假细节的建模。然而,我们将在以下部分看到,交叉熵损失的改进导致了在广泛的自然语言任务上的一致性能提升。 图3.1:计算性能的平滑缩放。性能(根据交叉熵验证损失衡原创 2024-10-03 16:42:00 · 1354 阅读 · 0 评论 -
论文翻译 | Language Models are Few-Shot Learners 语言模型是少样本学习者(上)
最近的工作表明,通过在大规模文本语料库上进行预训练,然后在特定任务上进行微调,许多自然语言处理(NLP)任务和基准测试都取得了显著的提升。尽管这种方法在架构上通常是任务无关的,但它仍然需要成千上万个示例的任务特定微调数据集。相比之下,人类通常只需要几个示例或简单的指令就能完成新的语言任务——这是当前NLP系统仍然在很大程度上难以做到的。在这里,我们展示了扩大语言模型规模可以极大地提高任务无关的少样本性能,有时甚至能与之前的最佳微调方法相媲美。原创 2024-10-03 15:21:42 · 1251 阅读 · 0 评论 -
论文翻译 | ReWOO: 高效增强语言模型的解耦推理
增强语言模型(ALMs)将大型语言模型(LLMs)的推理能力与允许知识检索和操作执行的工具混合在一起。现有ALM系统触发LLM思维过程,同时以交错的方式从这些工具中提取观察结果。具体来说,LLM调用外部工具的原因,暂停以获取工具的响应,然后根据前面的所有响应令牌决定下一个操作。这种范例虽然简单且易于实现,但由于冗余提示和重复执行,通常会导致巨大的计算复杂性。本研究首次解决了这些挑战,提出了一种模块化范式ReWOO(无观察推理),将推理过程与外部观察分离,从而显着减少了令牌消耗。原创 2024-10-02 14:39:32 · 1700 阅读 · 0 评论 -
论文翻译 | LLaMA-Adapter :具有零初始化注意的语言模型的有效微调
我们提出了一种轻量级的自适应方法,可以有效地将LLaMA微调为指令遵循模型。lama - adapter采用52K自指导演示,在冻结的LLaMA 7B模型上只引入1.2M可学习参数,在8个A100 gpu上进行微调花费不到一个小时。具体来说,我们采用了一组可学习的自适应提示符,并将它们添加到更高的转换器层的单词令牌中。然后,提出了一种带有零门控的零初始化注意机制,该机制自适应地将新的教学线索注入到LLaMA中,同时有效地保留了预先训练好的知识。原创 2024-09-30 19:35:25 · 2030 阅读 · 0 评论 -
论文翻译 | Guiding Large Language Models via Directional Stimulus Prompting 通过定向刺激提示引导大型语言模型
最近的研究[16, 75, 4]表明,像GPT-3、InstructGPT和ChatGPT这样的LLMs,能够在零样本或少样本提示下生成高质量的摘要。然而,它们基于参考的评价基准性能,如ROUGE分数,仍然落后于微调方法,表明生成的摘要可能并不完全符合参考摘要的风格和重点。在我们的实验中,我们试图通过提供应在期望摘要中提及的关键词作为提示,来指导LLMs生成与参考摘要更接近的摘要。我们使用比较生成摘要与参考摘要的指标来评估有效性。值得注意的是,其他期望的方向,如更好地与人类偏好对齐,也可以追求。原创 2024-09-29 21:11:26 · 873 阅读 · 0 评论 -
论文翻译 | Batch Prompting: Efficient Inference with Large Language Model APIs 批处理提示:使用大型语言模型api的高效推理
使用大型语言模型(LLM)对数十万个样本执行推理可能在计算和经济上都很昂贵。我们提出了批量提示,这是一种简单的替代提示方法,使LLM能够批量运行推理,而不是一次运行一个样本。我们的方法在保持下游性能的同时减少了令牌和时间成本。我们从理论上证明,在少量的上下文学习设置下,推理成本几乎与每批样本的数量成反比线性下降。原创 2024-09-28 20:05:29 · 1118 阅读 · 0 评论 -
论文翻译 | Active Prompting with Chain-of-Thought for Large Language Models 基于思维链的大型语言模型主动提示(下)
在本节中,我们将在以下三个小节中描述数据集和评估指标、基线模型和实现的细节。更多细节见附录A。 遵循LLMs推理研究中的标准评估设置(Wei等人,2022b),我们的实验在三种类型的数据集上进行:GSM8K (Cobbe等人,2021)、ASDiv (Miao等人,2020)、SVAMP (Patel等人,2021)、AQuA (Ling等人,2017)、SingleEq (Koncel-Kedziorski等人,2016)、CSQA (Talmor等人,2019)、StrategyQA (G原创 2024-09-27 15:59:38 · 1130 阅读 · 0 评论 -
论文翻译 | Active Prompting with Chain-of-Thought for Large Language Models 基于思维链的大型语言模型主动提示(上)
特别是,对于复杂的问答任务,一种有效的方法是基于示例的思维链(CoT)推理提示,这大大提高了LLM的性能。借鉴基于不确定性的主动学习方法(Gentile等人,2022年)的相关问题,我们引入了几种指标来刻画模型对每个问题的预测中的不确定性。利用u,我们选择不确定性最大的n个问题,并由专家注释这些问题以制定新的示例E。应用LLMs的一种典型方式是通过提供一系列指令和示例进行上下文学习(Brown等人,2020年),这在传统的语言理解和生成任务上表现良好,但在复杂的推理任务上表现较差(Rae等人,2021年;原创 2024-09-27 15:32:40 · 1020 阅读 · 0 评论 -
论文翻译 | SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHTREASONING IN LANGUAGE MODELS 自洽性提高了语言模型的思维链推理能力(下)
我们进行了一系列实验,在一系列推理基准上比较了所提出的自一致性方法与现有方法。我们发现自一致性大大提高了所考虑的每个语言模型的推理精度,跨越了广泛的模型尺度。 任务和数据集。我们在以下推理基准上评估自一致性。3•算术推理。对于这些任务,我们使用了Math Word Problem Repository (KoncelKedziorski等人,2016),包括AddSub (Hosseini等人,2014)、MultiArith (Roy & Roth, 2015)和ASDiv (Miao等人原创 2024-09-26 19:38:48 · 758 阅读 · 0 评论 -
论文翻译 | SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHTREASONING IN LANGUAGE MODELS 自洽性提高了语言模型的思维链推理能力(上)
特别是,当与PaLM-540B或GPT-3一起使用时,自一致性在算术推理任务中实现了新的最先进的性能水平,包括GSM8K (Cobbe等人,2021)(+17.9%的绝对精度增益),SVAMP (Patel等人,2021)(+11.0%),AQuA (Ling等人,2017)(+12.2%),以及常识推理任务,如StrategyQA (Geva等人,2021)(+6.4%)和ARCchallenge (Clark等人,2018)(+3.9%)。更详细地说,假设生成的答案ai来自一个固定的答案集,原创 2024-09-26 19:19:31 · 796 阅读 · 0 评论 -
论文翻译 | Knowledge Graph Prompting for Multi-Document Question Answering 多文档问答的知识图谱提示(下)(实验在下篇)
实现自适应知识图遍历的一个自然解决方案是对候选节点进行排序,即在我们的例子中已经访问过的节点的邻居,从而确定下一步访问哪些节点。最直接的方法是基于启发式的模糊匹配或基于嵌入的相似度排序,这些方法无法捕捉到已遍历路径与下一个要访问的节点之间的内在逻辑关系。相反,我们对一个大型语言模型(LLM)进行微调,以指导知识图遍历到下一个最有希望的段落,从而基于访问的段落接近问题,我们称之为基于LLM的KG遍历代理。 给定一个询问文档内容的问题q,基于LLM的图遍历代理对先前访问过的节点/检索到的段落进行推原创 2024-09-25 20:47:58 · 1079 阅读 · 0 评论 -
论文翻译 | Knowledge Graph Prompting for Multi-Document Question Answering 多文档问答的知识图谱提示(上)(实验在下篇)
大型语言模型(LLMs)的“预训练、提示、预测”范式在开放领域问答(OD-QA)中取得了显著的成功。然而,很少有研究探索这种范式在多文档问答(MD-QA)中的应用,MD-QA是一项需要深入理解文档内容和结构之间逻辑联系的任务。为了填补这一重要空白,我们提出了一种知识图谱提示(KGP)方法,用于在为MD-QA提示LLMs时构建正确上下文,该方法包括一个图构建模块和一个图遍历模块。原创 2024-09-25 20:17:37 · 991 阅读 · 0 评论 -
论文 | Reframing Instructional Prompts to GPTk’s Language
与原始指令相比,我们的重构指令在具有不同规模的 LM 中都取得了显著的改进。重构指令优于原始指令和基线方法: 在少样本和零样本学习设置中,重构指令在 ROUGE-L 指标上均优于原始指令、模式选择基线、校准方法和最大示例方法。重构指令与监督学习模型相当: 在一些任务类别中,重构指令在少样本学习设置中甚至优于监督学习模型,这表明重构指令可以有效地利用大型语言模型的知识。数字、日期还是跨度?重构指令在不同模型上表现一致: 重构指令在不同模型上均表现出一致的性能提升,这表明重构指令对不同架构的模型具有泛化能力。原创 2024-09-24 14:47:25 · 725 阅读 · 0 评论