干货 | 探索大模型：视觉规化、量化、Text-to-SQL的挑战

AITIME论道

于 2024-04-08 18:32:43 发布

阅读量843

点赞数

文章标签： sql 数据库

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247523445&idx=1&sn=3314d5425a5ee4bc9e89e1823123f95b&chksm=e89474566674fe2ffebdbaf91359f24cbad27d1b9d9d4e20d0b1b7148b87255136286ed42b55&scene=126&sessionid=0

版权

本文讨论了大模型在视觉语言规划、量化处理和Text-to-SQL等领域的最新研究，涉及四位专家的分享，强调了模型性能提升的同时带来的问题与应对策略，以及智能体视角下对知识表达、多模态交互的探讨。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

无论是在诸如自然语言处理、计算机视觉等基础的AI领域，还是在语音识别、机器翻译、以及更进一步的Text-to-SQL等具体的应用场景，大模型都在展现出无法忽视的影响力。以规划和量化为工具，大模型正在不断拓展AI的能力边界，同时也给我们带来了一系列新的问题和挑战。2024年3月20日，第十二期大模型专题活动邀请了香港科技大学四年级博士生岑俊，清华大学电子系四年级博士生李师尧，中国人民大学三年级博士生李好洋，浙江大学三年级博士生姚云志，四位嘉宾聚焦大模型的视觉语言规划、量化以及Text-to-SQL等关键内容，为大家呈现大模型领域的最新动态与挑战。同时，在思辨环节，四位嘉宾围绕智能体视角下的语言模型展开，探讨泛化与幻觉的辨析，以及知识表达与应用的探讨。

岑俊

Using Left and Right Brains Together Towards Vision and Language Planning

当前的大型多模态模型(LMMs)虽然在各种任务上表现出色，但在视觉推理方面存在不足。传统的LMMs主要通过语言空间进行规划，缺乏对视觉和空间想象能力的支持。然而，人类在进行认知任务时，左右脑半球协同工作，左脑负责语言和逻辑推理，右脑负责空间意识和整体视觉感知。岑俊在报告中介绍了一种新的视觉语言规划(VLP)框架，结合了语言规划和视觉规划，分别模拟了人类左右脑的功能。实验结果显示，该方法在视觉语言任务上显著提升了性能，并在纯视觉和纯语言任务上也展现了潜力。这表明结合视觉和语言规划可以获得更好的上下文感知任务执行。此外，他还分析了一些案例研究，展示了VLP框架在GPT4-V上的应用效果，并分析了视觉规划和语言规划的效果。

李师尧

Evaluating Quantized Large Language Models

量化在减少大语言模型(LLM)的内存消耗和计算开销方面具有巨大潜力，但其对不同类型任务和模型性能的影响尚不明确。在报告中，李师尧介绍了自己的研究，通过评估11种模型，包括OPT、LLaMA2、Falcon、Bloomz等，在125M到180B的参数量范围内，覆盖5种类型任务，包括基础NLP任务、涌现能力任务、可信度任务、对话任务和长文本处理任务。研究结果表明，模型越大，对权重和键值缓存量化的容忍度越高，而激活量化的容忍度越低。大多数任务使用W4、W4A8、KV4和W8KV4量化对性能影响微小。然而，在长文本任务中，权重和键值缓存量化对性能影响更大。此外，他还评估了最先进的量化方法，如AWQ和SmoothQuant，发现它们在适度的性能损失情况下可以有效恢复性能。这为LLM量化技术的选择和应用提供了重要的指导，并对LLM量化技术的发展具有重要参考价值。

李好洋

CodeS: Towards Building Open-source Language Models for Text-to-SQL

当前开源语言模型在（Text-to-SQL）任务上的主流方法依赖于封闭源代码的大型语言模型，如ChatGPT和GPT-4，这带来了一些局限性，如模型架构不透明、数据隐私风险和昂贵的推理开销。为解决这些问题，李好洋提出了一种名为CodeS的开放源代码语言模型系列，其参数规模从1B到15B不等，专门用于Text-to-SQL任务。该方法通过采用增量预训练的方式，利用精心设计的SQL中心语料库对StarCoder进行预训练，以增强其SQL生成和自然语言理解能力。此外，他还介绍了一种综合数据库提示构建方法，用于生成高质量的数据库提示，并通过双向数据增强技术进行快速领域适应。在多个文本到SQL基准测试中，包括广泛使用的Spider基准和最新发布的BIRD基准，实验结果表明，CodeS模型在几乎所有挑战性文本到SQL基准测试中取得了新的最先进精度。

Panel

智能体视角下的语言模型：

泛化与幻觉的辨析，知识表达与应用的探讨

Q：模型是如何表达知识的？在多模态的场景下这些知识是如何相互影响，相互作用的？

姚云志：一直以来，大家普遍认为知识存储在模型的前向反馈层，但是现有的一些研究也指出一种观点，即不能独立地看待具体某一个文字的位置，模型如何表达知识依然是一个没有明确结论的问题。知识不仅仅是通过文字的形式表达的，不同模态下的知识表达形式是丰富多样的。

岑俊：知识存在于模型中，但是具体存在于哪一个具体的模块中是未知的。在开源的多模态大模型LLama中，它虽然进行了视觉端与文本段的特征对齐，但是在使用的过程当中会发现它输出的答案未必来自视觉端图片对应的token，大概率会偏向于关注输入文本的token，即使是使用与图片无关的文本故意诱导其回答仍然可能作出一个根据文本输入得到的回答，这也是多模态大模型架构的一种缺陷，是今后值得研究的一种方向。

李师尧：“知识”和“能力”都是存在于大语言模型的权重中的。“知识”分为两类：一类是存在于大语言模型中的常识，涉及到的能力即调用这种信息以及理解用户的指令；第二类来自于用户的输入，此时涉及到的能力即应用已有的知识积累处理问题，得出一个结论。在多模态的场景下，我们很难用语言对事物进行准确的描述，给扩散模型一个草图让其生成的信息也会比语言描述要准确得多。

李好洋：语言模型在训练的时候，知识和能力是同时被学习的，我们很难将其解耦只保留单方面的能力。而SFT仅仅进行格式上的对齐，解锁学习到的文本和能力。越复杂的预训练模型所包含的信息越多，知识能力以高维的形式存在，人类很难理解高维的信息表示。对于第二个问题，我认为将不同模态之间的数据信息对齐是非常重要的，将这一点做好在语言、图像、视频生成等方面都有可能有大的突破。

Q：语言模型在未来机器人中的应用形态是怎么样的？

姚云志：现在的语言体系和规模非常大，本地部署有困难。在未来的机器人中，语言模型可能更多地依赖于云端部署，以利用云计算资源的强大能力。通过云端部署，机器人可以随时访问和更新最新的语言模型，从而保持其在不断变化的语言环境中的准确性和适应性。

此外，云端部署还可以实现语言模型的实时更新和定制化，以满足不同机器人应用场景的需求。例如，针对特定行业或任务的定制化语言模型可以在云端进行训练和优化，然后通过网络传输到机器人中进行部署和应用。这种灵活性和可定制性可以使机器人在各种复杂环境下更加智能和高效地运行。

岑俊：从去年开始，多模态大模型和Agent成为了研究和应用的热门话题。这些技术以大语言模型为核心，通过整合其他模块来实现各种任务，包括机器人、日常任务（比如室内抓取）、智能代理以及游戏玩法等。但未来大型语言模型是否将成为机器人领域的唯一核心？是否可能会出现其他同等重要甚至更重要的模型，与大型语言模型共同构成机器人的核心系统，这是值得思考的。

李师尧：OpenAI内部已经通过一些方法成功将大型模型的能力“蒸馏”到小型模型中，未来机器人的发展肯定离不开这种轻量化方法，也会是一种多模态的形式，即它们不仅能够听和说，还能够进行绘画等多种输出，多模态的相互影响应该能够进一步推动这种蒸馏方法的发展。蒸馏方法可以在小型模型上保留大型模型的知识，甚至在某些情况下超越大型模型，这要归功于多模态的帮助。因此，在我看来，未来的机器人可能会采用比较小的模型，但它们会统一各种模态，并通过蒸馏方法或其他新技术实现与大型模型相近甚至同等水平的性能。当然，在一些特殊情况下比如在人群环境中或者远程操作时，可能需要使用更复杂的模型来进行推理。

李好洋：未来机器人的发展还有很大的潜力可挖掘，数据、网络结构和训练目标的改进都需要大量的人力物力去实验和验证。目前的机器人系统采用了模块化设计，例如图像编码器、文本编码器等，但它们之间的对齐并不十分优雅，这可能是由于数据收集方面的挑战。特别是对于多模态数据，尤其是与文本对齐的数据，收集起来更加困难。其次，网络结构也是一个需要考虑的因素。未来可能会出现更强大、更优越的网络结构，不再局限于将所有模态都转化为序列，然后交给Transformer进行处理。这需要进一步的探索和研究。另外，训练目标也是一个重要的方面。目前的自监督训练方式可能在训练效率和适用性上存在一定局限性，因此可能需要改进训练目标，以适应多模态数据的特点。关于机器人的部署方式。随着硬件性能的提升，尤其是移动端硬件的发展，机器人可能会更多地选择本地部署，而不是依赖云端。当然，这也要取决于未来几年硬件发展的速度和方向。

Q：智能体是大模型与现实交互的载体吗？

姚云志：我们在研究大型语言模型时，智能体是一个备受关注的方向，甚至衍生出了智能体网络，还使用智能体来模拟人类社会的各种场景。但目前我觉得，智能体本身现在如果要与现实进行交互，更多的是人类从智能体获取信息的阶段。如果我们能够实现一个能够在与人类交互的过程中不断完善自己的智能体，那么它就有可能成为现实世界交互的一个载体。

岑俊：智能体与机器人有一些相似之处。一个高级的智能体应该具有类似于人类的功能，首先需要一些传感器来收集各种信息，即使是虚拟的智能体也可以这样做。收集到信息后，智能体可能是多模态的，然后可以对这些信息进行处理。但在更高级的阶段，智能体可能会像人类一样具有强大的感知和推理能力。最终形态的大模型可能是无限可扩展的，只需将所有已见过的信息存储在提示中，而无需定制化的模型。智能体会根据自己的历史经验来完成当前环境下的任务。如果智能体能够像这样，将所见所闻存储在"提示"中，并不断地与现实世界进行交互，不断地搜集信息，不断地成长和适应环境，那么它就可能与人类的差距就会缩小，这种形态可能代表着未来机器人的终极形态。

李师尧：智能体不仅仅是大型模型与现实交互的载体，而是涵盖了各种形态的机器人或模型。在这种语境下，我更倾向于探讨智能体可能具备的一些能力。其中，持续学习的能力是一个重要方面。之前了解到了一些关于持续学习能力的研究，无论是在小模型还是大模型中，都可能会遇到灾难性遗忘的问题。因此，未来的大型模型应该具备更好的控制能力，以便有效地应对持续学习过程中的遗忘问题。

将大模型模块化也有可能是一个解决方案。就像人类大脑中有不同的分区负责不同的功能一样，模型的不同部分可以专注于不同的任务。一些能力可能经过了长时间的训练，不需要太多的微调，而一些需要快速适应的新任务可能会更频繁地进行学习。通过将模型分成不同的区域，可以更好地管理和优化模型的学习过程，减少遗忘的可能性。

李好洋：目前，智能体在研究中更多地被用作在提示上进行任务编排和调用API等方面的探索。站在当前时间节点上，智能体可能主要作为大型模型与现实世界进行交互的一种载体。前面提到的关于大型模型上下文的无限长的观点，是一种可以被借鉴的方式。将所有知识储存在模型的上下文中，然后根据这些知识来解锁各种能力。但由于现实中不可能使用无限长的上下文，所以这个想法可能需要进一步考虑。

关于大模型与现实世界的交互，有很多种实现方式。例如，可以固定一些动作或机械臂动作，然后根据环境进行预测；也可以定义一些函数或API，并根据环境执行这些函数。非常期待未来能够出现一个大型多模态模型，能够理解世界上各种模态的信息，并且能够在特定任务上进行持续学习和适应。

往期精彩文章推荐