微软开源 AI 提示优化工具包 LMOps

没掉发的程序员

于 2023-02-28 11:31:55 发布

阅读量588

点赞数

分类专栏： IT前沿资讯文章标签： LMOps Powered by 金山文档

IT前沿资讯专栏收录该内容

9 篇文章 1 订阅

订阅专栏

微软研究院开源LMOps，这是一组用于改进文本提示的工具，用作生成AI模型的输入。该工具包包括 Promptist，它优化用户的文本输入以进行文本到图像生成，以及结构化提示，这是一种在几个镜头学习提示中包含更多示例以生成文本的技术。

生成性文本到图像模型（如稳定扩散）通常能够直接从用户输入中产生令人印象深刻的结果。然而，研究人员已经表明，快速工程通常可以改善结果。这些技术涉及通过包含对艺术风格或功能（如照明）的建议来修改文本输入。例如，不是简单地传递“猫在太空俱乐部跳舞”作为提示，而是工程提示可能是“猫在太空俱乐部跳舞，数字绘画，艺术，概念艺术，柔光，hdri，平滑，锐利焦点，插图，幻想。

借助Promptist，微软的研究人员训练了一种额外的语言模型（LM），该模型优化了文本到图像生成的文本提示。首先，该团队在一组手动优化的提示上使用监督学习对预训练的LM进行了微调。然后使用强化学习（RL）进一步训练模型。对于RL奖励功能，该团队使用修改后的提示作为文本到图像生成器的输入，并使用CLIP评估生成的图像的“相关性和美学”。在使用最终模型的实验中，大多数时候，人类法官更喜欢修改后的提示产生的图像，而不是原始提示产生的图像。

GPT-3 等生成 LM 在问答等自然语言处理（NLP）任务上表现良好。由于这些模型通过预测文本序列中的下一个值来工作，因此在给定任务示例时，它们通常表现得更好。例如，在翻译任务中，可能会提示模型“将英语翻译成法语”指令，然后是一些简短的翻译示例，然后是最后一段英语文本。然后，该模型将预测该文本的法语翻译。

输入提示中给出的示例数量受 LM 可以接受的最大输入序列的限制，通常约为几千字。Microsoft 的结构化提示解决了这一限制，允许数千个示例，首先将示例连接成组，然后将每个组输入到 LM 中。LM 注意力模块的隐藏键和值向量被缓存。最后，当用户未更改的输入提示传递给LM时，缓存的注意力向量被注入LM的隐藏层中。研究人员发现，这种技术在几个NLP任务上“优于传统方法”。

在Twitter上关于结构化提示的讨论中，一位用户指出，这种技术不适用于OpenAI的封闭模型。AI开发人员Jay Hack回答说：