微软开源 AI 提示优化工具包 LMOps

微软研究院开源LMOps,这是一组用于改进文本提示的工具,用作生成AI模型的输入。该工具包包括 Promptist,它优化用户的文本输入以进行文本到图像生成,以及结构化提示,这是一种在几个镜头学习提示中包含更多示例以生成文本的技术。

生成性文本到图像模型(如稳定扩散)通常能够直接从用户输入中产生令人印象深刻的结果。然而,研究人员已经表明,快速工程通常可以改善结果。这些技术涉及通过包含对艺术风格或功能(如照明)的建议来修改文本输入。例如,不是简单地传递“猫在太空俱乐部跳舞”作为提示,而是工程提示可能是“猫在太空俱乐部跳舞,数字绘画,艺术,概念艺术,柔光,hdri,平滑,锐利焦点,插图,幻想。

借助Promptist,微软的研究人员训练了一种额外的语言模型(LM),该模型优化了文本到图像生成的文本提示。首先,该团队在一组手动优化的提示上使用监督学习对预训练的LM进行了微调。然后使用强化学习(RL)进一步训练模型。对于RL奖励功能,该团队使用修改后的提示作为文本到图像生成器的输入,并使用CLIP评估生成的图像的“相关性和美学”。在使用最终模型的实验中,大多数时候,人类法官更喜欢修改后的提示产生的图像,而不是原始提示产生的图像。

GPT-3 等生成 LM 在问答等自然语言处理 (NLP) 任务上表现良好。由于这些模型通过预测文本序列中的下一个值来工作,因此在给定任务示例时,它们通常表现得更好。例如,在翻译任务中,可能会提示模型“将英语翻译成法语”指令,然后是一些简短的翻译示例,然后是最后一段英语文本。然后,该模型将预测该文本的法语翻译。

输入提示中给出的示例数量受 LM 可以接受的最大输入序列的限制,通常约为几千字。Microsoft 的结构化提示解决了这一限制,允许数千个示例,首先将示例连接成组,然后将每个组输入到 LM 中。LM 注意力模块的隐藏键和值向量被缓存。最后,当用户未更改的输入提示传递给LM时,缓存的注意力向量被注入LM的隐藏层中。研究人员发现,这种技术在几个NLP任务上“优于传统方法”。

在Twitter上关于结构化提示的讨论中,一位用户指出,这种技术不适用于OpenAI的封闭模型。AI开发人员Jay Hack回答说:

没错。您需要访问转换器内部的 [键] 和 [值],它们不会公开。不过,您可以在 OSS 上实现自己,例如 BLOOM 或 T5。

结构化提示的代码可在 GitHub 上找到。Promptist的在线演示可在HuggingFace上找到。LMOps 存储库还指出,对知识增强的研究是“待定的”。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值