[论文泛读]Why Johnny Can’t Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts

临风而眠

已于 2024-03-31 20:29:22 修改

阅读量864

点赞数 24

分类专栏：小趴菜的科研入门人机交互大语言模型文章标签：人工智能人机交互

于 2024-03-31 20:28:39 首次发布

本文链接：https://blog.csdn.net/qq_52431436/article/details/137206175

版权

小趴菜的科研入门同时被 3 个专栏收录

26 篇文章 0 订阅

订阅专栏

大语言模型

16 篇文章 1 订阅

订阅专栏

人机交互

2 篇文章 0 订阅

订阅专栏

CHI2023的论文

借助AI速读，然后在readpaper细读

关于什么是probe

https://medium.com/@arjun.mp/understanding-probes-in-human-computer-interaction-48bc8740296a

章节速览

ABSTRACT

研究核心：本文研究了非AI专家在利用预训练的大型语言模型（如GPT-3）进行自然语言交互设计时遭遇的难题。
关键发现：尽管LLM模型能够原生支持流畅的多轮对话，但非专家在设计能够引导模型输出的有效提示（prompts）方面面临挑战，且这种基于提示的交互方式较为脆弱。

INTRODUCTION

本章节探讨了非专家使用大型语言模型（LLM）和提示进行聊天机器人设计的行为。尽管社交媒体上对LLM和提示的实验热情高涨，但对于非专家如何直观地设计提示以及他们的有效性了解甚少。文中介绍了一种无代码的LLM聊天机器人设计工具BotDesigner，通过观察10名没有丰富提示设计经验的用户使用该工具，发现他们在探索提示设计时虽然有机会主义，但难以做出稳健和系统的改进。用户在设计提示时受到对LLM理解能力和执行能力的局限以及将提示设计成人与人交流方式的倾向的影响。这项工作为设计有效的用户面向的LLM提示设计工具提供了见解，并指出了提高程序员和公众对LLM和提示素养的教育机会以及进一步研究的方向。

研究背景：本章节深入探讨了非专家在应用LLM和提示进行聊天机器人设计的行为模式。
研究目的：尽管社交媒体上对LLM和提示的实验热潮不断，非专家在设计提示方面的直观方法和有效性尚未得到充分理解。本文介绍了无代码LLM聊天机器人设计工具BotDesigner，并通过观察10名缺乏提示设计经验的用户使用该工具的情况，揭示了他们在设计过程中的机会主义行为和遇到的挑战。

机会主义

RELATED WORK

设计现状：本章回顾了非专家设计对话机器人的历史背景，并通过“预训练，提示，预测”的NLP新范式，探讨了降低非专家进入门槛的可能性。
策略与挑战：文章讨论了有效的提示策略，如示例提供、代码式提示和重复提示等，以及设计有效提示策略所面临的挑战和当前研究的不足。

METHOD: DESIGN PROBE

工具开发：本章节详细介绍了作者开发的无代码提示设计工具BotDesigner，以及利用该工具进行的用户研究方法。
研究方法：通过BotDesigner，作者观察了用户在设计提示时的直觉行为和思考过程，以揭示非专家如何直观地设计出稳健的提示及其在设计过程中遇到的困难。

USER STUDY FINDINGS

挑战分析：本章分析了使用BotDesigner的非专业用户在提示设计中遇到的挑战，包括在生成、评估和解释系统行为方面的困难，以及这些挑战如何影响提示设计的有效性。
认知障碍：参与者在设计提示时常常过度泛化，并期望提示能够符合人类的交流方式，这限制了他们有效利用提示的能力。同时，他们在评估和解释提示效果方面存在不足，缺乏系统性测试来评估提示的稳健性。

DISCUSSION

研究意义：本章讨论了研究结果的含义，提出了针对培训和教育的建议，指出了设计机遇，并提出了未来研究的潜在问题。
设计建议：建议用户进行更多数据收集以实现系统化测试，并创建示例库以帮助用户克服设计障碍。同时，工具设计应帮助用户避免学习障碍和陷阱，并明确工具的非人性化特征。

CONCLUSION

本章探讨了基于提示的聊天机器人设计工具BotDesigner的使用者的直觉和行为。研究者发现用户在社会经验中的直觉对提示设计有显著影响，用户倾向于给出指令而非示例，基于有限示例做出能力假设，避免显示情绪。研究者希望工具设计者考虑如何支持用户在面对这些行为和常见困难时。此外，章节还提供了BotDesigner的实现细节和初步评估结果，包括提示更改对聊天机器人响应的影响，以及用户在评估聊天机器人模板时的表现。

感觉里面有意思的点

在这里插入图片描述

这个AI Chain应该是上一篇泛读的那个promptchainer的作者的之前的工作，这篇论文指出了AI Chain的缺点

在这里插入图片描述

下面这个表格也挺有意思的
在这里插入图片描述
其实就是说，非专家在不需要编程的程序创作交互中仍然面临障碍
（想到就像写prompt，那些低代码，零代码工具，其实也是需要理解task本身）

读了几篇CHI的论文，都有这俩词：probe和opportunistical

词句积累

在这里插入图片描述

术语

术语	出处 (句子)	解释
Pre-trained large language models (LLMs) / 预训练大型语言模型	“Pre-trained large language models (“LLMs”) like GPT-3 can engage in fluent, multi-turn instruction-taking out-of-the-box…”	指的是像GPT-3这样经过预训练的模型，能够原生支持流畅的多轮对话指令接收。
Prompting / 提示	“Using natural language to steer LLM outputs (“prompting”) has emerged as an important design technique potentially accessible to non-AI-experts.”	利用自然语言来引导LLM输出的一种设计技术，潜在地可供非AI专家使用。
End-user prompt engineering / 终端用户提示工程	“Here, we explore whether non-AI-experts can successfully engage in “end-user prompt engineering”…”	非AI专家参与使用提示来改进LLM输出的过程。
Iterative design / 迭代设计	“Toward this goal, we created a no-code LLM-based chatbot design tool, BotDesigner, that (1) allows users to create an LLM-based chatbot solely through prompts, and (2) encourages iterative design and evaluation of effective prompt strategies.”	通过反复的设计和评估来改进提示策略的过程。
Supervised learning / 监督学习	“In this “supervised learning” paradigm, designers make NLP models generate their desired interactions by improving its training data and feature design; tasks that require substantial machine learning and programming knowledge [50].”	一种机器学习范式，设计者通过改进训练数据和特征设计来让NLP模型生成期望的交互。
Pre-train, Prompt, Predict / 预训练、提示、预测	“The emergent “pre-train, prompt, predict1” paradigm in NLP promises to lower the entry barrier for non-experts innovating on conversational interactions [30].”	NLP中新兴的范式，通过预训练、提示和预测来降低非专家在会话交互上的创新门槛。
Code-like Prompts / 代码式提示	“Write prompts that look (somewhat) like code. “Prompting looks more like writing web pages.””	编写看起来有点像代码的提示，这种方式可以使提示更加健壮，适应更广泛的输入分布。
Repeated Prompting / 重复提示	“Repeat yourself. The authors of DALL·E, the large text-to-image model, report that to generate a neon sign that reads “backprop”, the prompt “a neon sign that reads backprop; backprop neon sign; a neon sign that backprop” can be more effective than the one without the repetition [40].”	在提示中重复关键信息，可以提高模型对特定任务的理解，从而生成更准确的输出。
Trial and Error / 试错	“Even for NLP experts, prompt engineering requires extensive trial and error…”	一种通过不断尝试和错误来找到问题解决方案的方法。
Non-Expert Programming / 非专家编程	“Early HCI research tells us that program-authoring interactions that do not require programming are not necessarily accessible to non-programmers; drag-and-drop and interactive machine learning (iML) tools cannot necessarily enable non-ML experts to build models [50], and prompting can be viewed as a programming or iML task.”	非编程专业人士尝试创建和使用编程工具的过程，即使这些工具不需要传统编程知识。
Interactive Machine Learning (iML) / 交互式机器学习	“In this context, one might ask: does prompt engineering similarly involve tacit knowledge that non-AI experts do not have?”	一种允许用户通过直观界面与机器学习模型交互的方法，非AI专家可能不具备相关的默示知识。

临风而眠

关注

24
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
[论文泛读]Why Johnny Can’t Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts

研究核心：本文研究了非AI专家在利用预训练的大型语言模型（如GPT-3）进行自然语言交互设计时遭遇的难题。关键发现：尽管LLM模型能够原生支持流畅的多轮对话，但非专家在设计能够引导模型输出的有效提示（prompts）方面面临挑战，且这种基于提示的交互方式较为脆弱。
复制链接

扫一扫