后ChatGPT时代NLP的下一个方向:增强式大规模语言模型

来自:复旦DISC

进NLP群—>加入NLP交流群

15cea1adff0897988b8defb370bf25dc.gif

引言

c4be8a77f1f551e4eb0af02189b5c4b7.gif

目前,大规模语言模型(LLM)在自然语言处理领域表现出了惊人的性能,能够完成前所未有的任务,为更多的人机交互形式打开了大门,ChatGPT是一个最好的例子。然而,LLM在大规模推广中受到了一些限制,其中一些限制源于其单参数模型和有限的上下文(N个token)等基本缺陷。随着硬件和软件技术的不断发展,LLM需要更长的上下文来展现其更强大的能力,但在实践中,大多数LLM仍然只能使用较小的上下文尺寸。为了解决这些问题,出现了增强语言模型(ALM),它是一种利用外部信息来增强语言模型的方法。ALM包括推理、工具和行为三个方面,通过这些方面的增强,语言模型可以调用其他工具来解决更加复杂的任务,并对虚拟或真实世界产生影响并观察结果。本文介绍2种最近出现的增强式语言模型去完成各种模态的交互式任务:1)VisualChatGPT;2)Toolformer。

03db399319eb16fed2600f3e16f592b0.gif

文章概览

92f934d369b55028a8b1db010ac91e11.gif

6ebe9557e143de06980de6d3ada426da.gif

文章概览

717e0bd42eaa0ae9d9c5ee82b83ab0df.gif

Visual-ChatGPT

54dd72b3accb3e03bfc72c86e752814c.png

微软最近的一个开源项目:Visual ChatGPT,让用户能够用交互的形式与大规模语言模型完成图片操作的任务。以此为 ChatGPT 提供了新的玩法。

论文:https://arxiv.org/abs/2303.04671

67d51c9e06ee7acc221094154e8a1ce2.gif

论文细节

d562f54818a9618015483c23af2485de.gif

介绍

Visual ChatGPT 是一种智能交互系统,它将不同的视觉基础模型与 ChatGPT 相结合,使得用户可以通过发送语言和图像与 AI 系统进行交互。与传统的 ChatGPT 仅支持文字交互不同,Visual ChatGPT 可以支持文字+图片的交互方式。除了可以进行简单的对话外,Visual ChatGPT 还可以接收复杂的视觉问题或视觉编辑指令,并要求多个 AI 模型之间进行协作和多步骤操作。用户还可以给出反馈,并要求修改结果,从而实现更加智能化、人性化的交互体验。简而言之,Visual ChatGPT 使用户可以以一种更加丰富、直观和自然的方式与 AI 系统进行交互。

用户可以发送以下几种指令进行交互:

  1. 发送和接收不仅是语言而且是图像

  2. 提供复杂的视觉问题或视觉编辑指令,需要多个 AI 模型之间的协作和多步骤操作

  3. 提供反馈并要求修改结果,并且它能够根据用户反馈修改结果

ffec07962ccf6212bcc388720d19a0cd.gif
方法

文中作者让ChatGPT与其他视觉模型进行交互,下游模型称作VFM, 是 Visual Foundation Model(视觉基础模型)缩写,其中Stable Diffusion、ControlNet、BLIP 等图像处理类模型。作者还提出了提示管理器(Prompt Manger)作为 ChatGPT 和 VFM 之间的桥梁。提示管理器(Prompt Manger)明确告知 ChatGPT 每个 VFM 的功能并指定必要的输入输出格式; 它将各种类型的视觉信息(例如 png 图像、深度图像和遮罩矩阵)转换为语言格式以帮助 ChatGPT 理解。同时管理不同 VFM 的历史记录、优先级和冲突; 通过使用提示管理器,ChatGPT 可以有效地利用 VFM 并以迭代的方式接收他们的反馈,直到满足用户的要求或达到结束条件。

74492857a2071f476ee81b2f6ee96790.png

详细的整体结构如下:

20ad5aa679e5b7ba960c3ea14c82a365.png

从左到右分为了三个部分,中间部分详细展示了模型接收到提问(Query)后,会判断是否需要使用 VFM 进行处理,如果需要则会调用下游的VFM相应的模型为这个指令进行回答。

Visual-ChatGPT特点
  • Visual ChatGPT 扩展了聊天机器人的输入和输出范围,超越了传统的基于文本的通信。它可以处理文本和图像信息,并根据用户需求生成各种格式的回复。

  • Visual ChatGPT 提高了聊天机器人的智能水平。传统的聊天机器人只能在单一领域或任务上表现出智能行为,而 Visual ChatGPT 可以在多个领域或任务上表现出智能行为,并且可以根据上下文切换不同模式。

  • Visual ChatGPT 增加了聊天机器人的趣味性和互动性。与传统的聊天机器人只能进行简单而枯燥的对话不同,Visual ChatGPT 可以进行富有创意和想象力的对话,并且可以根据用户喜好调整风格。

ac794586ad2eb2693088b6272f8c6d98.gif

文章概览

638d00be940a8a53c06a9f708f554586.gif

Toolformer

a3a340546ab5cee84c1bd22e845588a2.png

论文地址:https://arxiv.org/pdf/2302.04761v1.pdf

30708e994a7033c2d56a8db363e3a435.gif

论文细节

bf3bacca94314fb2006985a71fbb954d.gif

介绍

大型语言模型存在一些局限性,例如无法获取最新信息、可能会产生“信息幻觉”、难以理解低资源语言以及缺乏进行精确计算的数学技能等。为了解决这些问题,一种简单的方法是为模型提供外部工具,例如搜索引擎、计算器或日历。然而,现有方法通常需要大量的人工注释或将工具的使用限制在特定任务设置下,这使得语言模型与外部工具的结合使用难以推广。为了克服这种瓶颈,Meta AI 最近提出了一种名为 Toolformer 的新方法,该方法使得语言模型能够学会“使用”各种外部工具。

Toolformer满足了以下实际需求:

  • 大型语言模型应该在自监督的方式下学习工具的使用,而不需要大量的人工注释。人工注释的成本很高,而且人类认为有用的东西可能与模型认为有用的东西不同。

  • 语言模型需要更全面地使用不受特定任务约束的工具。Toolformer打破了大语言模型的瓶颈。接下来我们将详细介绍Toolformer的方法

方法

Toolformer基于带有in-context learning(ICL)的大型语言模型从头开始生成数据集。这种方法只需要提供少量人类使用API的样本,就可以让语言模型用潜在的API调用标注一个巨大的语言建模数据集。然后,使用自监督损失函数来确定哪些API调用实际上有助于模型预测未来的token,并根据对LM本身有用的API调用进行微调。由于Toolformer与所使用的数据集无关,因此可以将其用于与模型预训练完全相同的数据集,这确保了模型不会失去任何通用性和语言建模能力。具体来说,该研究旨在让语言模型具备一种能力——通过API调用使用各种工具。为了实现这个目标,每个API的输入和输出都可以表征为文本序列。这允许将API调用无缝插入到任何给定文本中,并使用特殊的token来标记每个此类调用的开始和结束。

该工作把每个API调用建模为一个元祖,如下所示:

33468e7d405c971f00de8fd19916a736.png

其中  是 API 的名称, 是相应的输入。给定一个API调用c和一个对应的结果r,上面的式子表示不带有结果的API调用,下面的式子表示带有API调用的结果的线性化序列。其中<API>,</API>和→是特殊的 token。这种方法让 LM 学会了控制各种工具,并为自己选择在何时以及如何使用哪种工具。

3ae0bb8a31533f2e06371a077aeca8b7.png671077dd2299fcba016c9d251605d711.png

给定一个只含有普通文本的数据集

bedac09a804dc62d28a2306d8110a34d.png

作者首先将这个数据集转换成一个增加了 API 调用表示的数据集 C*。这个操作分为三步如下图所示

cc8f5612d4320a7f3ce3fcb9dcd7af79.png

1)首先,该研究利用 LM 的 in-context learning 能力对大量潜在的 API 调用进行采样

2)然后执行这些 API 调用

3)再检查获得的响应是否有助于预测未来的 token,以用作筛选标准。

4) 筛选之后,该研究合并对不同工具的 API 调用,最终生成数据集 C*,并在此数据集上微调 LM 本身。

Toolformer结合了一系列的工具,包括一个计算器、一个Q/A系统、两个不同的搜索引擎、一个翻译系统和一个日历。Toolformer在各种下游任务中实现了大幅提高的零样本性能,通常与更大的模型竞争,而不牺牲其核心语言建模能力。

总结

本文介绍了两种增强式大语言模型(Visual-ChatGPT,Toolformer),使得大语言模型能够通过调用其他基础视觉模型,来通过交互让用户能够与大规模语言模型进行多模态任务的沟通;并且,通过构建API数据集的方式微调,让大规模语言模型学会利用调用API来执行各种任务。在当今火爆的大语言模型的浪潮下,增强式语言模型的范式为我们前往通用人工智能提供了有力的支持。

供稿丨罗瑞璞 编辑丨刘晴雯 责编丨罗瑞璞

供稿人:罗瑞璞丨研究生二年级丨研究方向:多模态理解丨邮箱:rpluo21@m.fundan.edu.cn

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

加入星球,你将获得:

1. 每日更新3-5篇论文速读

2. 最新入门和进阶学习资料

3. 每日1-3个AI岗位招聘信息

2455f9d23f1d4dac2af79f3364703fe2.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值