[PPT+讲稿+笔记]人大高瓴人工智能研究院宋睿华：做活的AI，多模态理解、生成与交互

本文链接：https://blog.csdn.net/m0_59163425/article/details/139635654

讲座回顾

团队目前专注于视觉、语音和语言领域。
语言被视为特殊且核心的模态，因为它能编码其他感官信息。
新加入团队的学生需至少掌握两种模态，其中语言是必选项，其他可选视觉或语音。

这些都是可能的发展方向。目前我们团队主要集中在视觉、语音和语言领域。语言作为一种特殊的模态，因为它能够编码其他感官信息，例如我们可以描述所见之物，或记录下希望乐器演奏的乐谱，这些都可以归结为语言。语言实际上是核心模态之一。我们通常会告诉加入团队的学生，至少需要掌握两种模态，其中语言模态是必须掌握的，其他则可以选择视觉或语音。从方法论上讲，

Transformer和Diffusion模型的发展使得NLP等领域的任务可以统一为语言序列处理。
生成模型主要分为基于Transformer的逐个生成和Diffusion模型两种。
研究中将方法或任务分为理解、生成和交互三大类。
多模态理解强调了人类理解语言是通过多种感官模态共同作用的结果。
模拟体验假说认为理解语言涉及模拟经历，调用多个脑区，与个人经历密切相关。

大家都有所了解，因为Transformer和Diffusion的强大能力，我们发现许多以前在NLP或其他领域定义的任务可以逐渐统一。例如，自然语言处理中的问答、文本分类和情感分析等任务，都可以统一为语言序列。我们在这个序列上使用生成模型进行训练，并在推理时回答问题或执行任务。目前流行的生成模式主要有两种：基于Transformer的逐个生成方式和Diffusion方式。Diffusion模型在生成语音或视觉内容时，能很好地建模点与点之间的关系。在我们的研究中，通常将方法或任务分为理解、生成和交互三种。理解可以视为解释文本，无论是图像、视频还是语音，我们都希望将其含义转化为语言。生成则涉及不同的输入，通常生成文本、图像或声音等多样化的输出。交互则涉及人与机器的多轮对话或其他交互模式。

今天我们讨论多模态理解，因为人类从出生开始学习语言时，并不是通过单一模态学习的。我们从出生起就能看到、听到，并接收父母的语言输入，多种模态共同作用形成了我们对世界的理解。最初，人们认为理解是基于符号的规则性过程，但逐渐发现仅依靠大脑的语言区域是不够的。上世纪九十年代提出了模拟体验假说，认为理解语言时，我们通过模拟经历来调用相应的脑区，如视觉或听觉，以模拟场景并掌握意义。这表明理解不仅涉及大脑，还与身体接收的多模态信息密切相关。同时，理解是个性化的，不同的人对同一句话可能有不同的理解，这常常导致误解。例如，提到“狗”，喜欢狗的人可能会感到忠诚和亲近，而曾被狗攻击的人则可能有不同的反应。这强调了理解需要模拟个人经历。当前流行的“具身”概念，实际上是模拟的另一种表述，也是当前研究的热点。我在2019年发表的一篇论文，就是在探讨这一领域。

图解电影是一种由爱好者制作的电影概述，通过300多句话和精选场景插图，15分钟内概述一部电影。
这种数据启发作者思考自然语言理解是否仅限于传统的文本任务，如分类、情感打标等。
作者提出语言理解可能还包括将语言转化为对应画面的能力，并提到了使用AI生成图像的例子。
作者在2018年进行了实验，采用了检索方式，同时考虑图像和文字的匹配。

在这个时候，我刚好看到说，我们其实有非常好的这种电影复述的数据，即图解电影。这些数据由许多爱好者在观看电影后，将其内容概括成一段话，大约15分钟可以概述一部电影，包含300多句话，并精心挑选电影中的真实场景作为插图。这样，没有时间观看电影的人可以通过15分钟类似于幻灯片自动播放的模式，了解故事概要。这种数据给我启发，它实际上是图像和文字成对的数据，其语义可能恰好对应。有了这样的数据后，我开始思考，我们的自然语言理解是否仅限于自然语言上的任务，如分类、情感色彩打标、词性标注等。这些任务一直是评价自然语言理解的关键。例如，当Bird出现时，有11项文本任务用于测试人工智能是否理解语言。但在2018年接触这些时，我开始思考，测试语言理解是否只有这一种方式。大家可以想象，在13、14岁时，可能有一段时间非常沉迷于阅读小说，晚上捧着书不愿入睡，直到看完。这时，阅读的目的并非完成任务，第二天也不会有人考你。但在阅读过程中，脑海中已幻化出电视剧般的画面，人物形象、动作、情感等已在脑海中具象化。当我思考到这个例子时，我开始想，我们的语言理解是否还有其他方式，比如将语言解释成对应的画面。如今，这已非常自然，每个同学都可能使用过Stable Diffusion或Made Journey，输入简短或详细的描述，AI就能生成丰富的画面。在2018年，大家还未意识到这一点，觉得这不可思议。但当我发现这些数据时，我进行了实验，我们当时采用了检索方式，同时考虑图像和文字的匹配。

使用的方法与后来的对比学习类似，实现了文字与图像的语义对齐。
通过观看大量电影，理解了文字与特定画面的对应关系。
以小男孩迷路的故事为例，详细描述了文字如何转化为图像，展示了故事的多个场景。
发现即使简短的文字描述，通过图像化也能获得更丰富的情感和理解。
提出通过深入理解文字并转化为视频，可以更接近人类理解和模拟的方式。
探索使用这些图像来帮助生成内容、回答问题或进行创作，作为未来工作方向。

当时使用的方法与后来的对比学习类似，这使得我们能够将文字与图像进行语义对齐。在检索过程中，由于观看了大量电影，我们能够理解某些句子与特定画面的对应关系。例如，有一个故事讲述了一个小男孩在森林中迷路。第一张图对应小男孩迷路的场景，第二张图对应他饿了想吃妈妈做的饼，第四张图对应他在地上画饼并点上芝麻，第五、六张图对应他想象自己吃饼的情景，第七张图对应他重新站起来继续走，最后两张图对应小男孩的父母找到他并一起回家吃饼的场景。这个工作让我非常惊喜，发现即使文字简短，如“小男孩的父母找到了他”，通过将文字转化为图像，我们可以获得更丰富的理解。例如，第八张图中，小男孩被父亲抱着，旁边露出母亲的脸，他们在哭泣，这展示了孩子失而复得后家人的复杂情感。这表明，尽管当时人们认为AI缺乏尝试，尝试难以定义，且不能完全通过知识图谱来定义，但我们找到了新的方法，即通过文字的深入理解，将其转化为具有丰富画面和动态的视频。这种理解更接近人类的方式，也更接近模拟。基于这种理解，我们还可以探索使用这些图像来帮助生成内容，回答问题或进行创作，这是我2020年从微软离职后加入人工智能领域后的一些工作方向。

北京智能研究院的文继荣院长提出了文澜1.0项目。
文澜1.0利用双塔模型BriVL处理互联网上的大量图文数据，实现图像与文字的相互理解和转换。
双塔模型通过对比学习在语义空间上对图像和文字进行编码和对齐，提高检索效率和性能。
文澜1.0适用于处理大规模数据集，如3000万图文数据，甚至扩展到6.5亿数据。
项目在处理图文弱相关性方面采取宽松策略，保留更多若相关信息。
文澜1.0已成功应用于长城汽车的欧拉喵语项目，并在车展中展示其应用潜力。

在人工智能领域，北京智能研究院的文继荣院长提出了一项创新项目——文澜1.0。该项目旨在利用互联网上的大量图文数据，通过双塔模型BriVL进行学习，以实现图像与文字之间的相互理解和转换。与传统的单塔模型不同，双塔模型分别对图像和文字进行编码，通过对比学习在语义空间上进行对齐，从而提高了检索效率和性能。这种方法特别适用于处理大规模数据集，如文澜1.0项目中的3000万图文数据，甚至扩展到6.5亿数据。此外，文澜1.0项目在处理图文弱相关性方面采取了更为宽松的策略，保留了更多若相关信息，这与OpenAI的Clip模型有所不同。文澜1.0的应用已成功落地于长城汽车的欧拉喵语项目，并在各大车展亮相，展示了其在实际应用中的强大潜力。

描述了一只猫能够理解并检索抽象的人类情感歌词。
指出这种能力挑战了传统的视觉和自然语言处理方法，这些方法通常从基础词汇和语法构建开始。
介绍了多模态大模型的出现改变了学习过程，能够直接处理抽象的图文信息。
将这种学习方式与儿童的自然学习过程相比较，强调其自然性和有效性。

像这样的猫，它能理解并检索出这样的歌词：“有点烦人，有点迷人，浪漫没天份，反应够迟钝。”这些歌词原本描述的是人的情感，非常抽象且内在。然而，这样的猫却能与这种抽象的语言进行良好的语义匹配。这启发我们思考，以往在视觉或自然语言处理领域，我们往往认为任务太难，于是从基础做起，先标注词汇信息，逐步构建语法，再理解语义。在计算机视觉中，我们通常先分割图像，进行目标检测，分类识别，如区分猫、草地、树叶，再尝试理解视频或图像。但在多模态大模型出现后，这一过程发生了变化。即使给大模型提供抽象的图文信息，它也能学习。这类似于儿童学习的过程，我们并非僵硬地教授孩子这是桌子腿、桌子面，而是通过日常互动，如提醒孩子拿桌子上的奶瓶，小心不要碰到头，孩子便逐渐理解了桌子和头的概念。这种学习方式与以往的符号化教学不同，它更自然、更有效。

2021年6月发布的应用展示了数据规模增大对效果的显著提升。
与北京邮电大学合作开发的应用能在30万首古诗词中通过图像解锁。
布林的想象世界应用允许用户通过任意文字查找图像，已索引Unsplash数据集。
该应用支持整句理解，不仅限于关键词搜索，体现了大型多模态预训练模型的能力。
在理解技术方面取得了显著进展，特别是在整句理解能力上。

在2021年6月发布时，我们观察到数据规模增大带来的显著效果。右侧展示的是我们与北京邮电大学合作，为第八届鼓浪屿诗歌节开发的小应用，该应用可在30万首古诗词中通过任意图像进行解锁。左侧则是布林的想象世界，用户可以通过任意文字查找图像，我们已将Unsplash数据集索引化。此应用不仅限于关键词搜索，用户可以使用任何句子，甚至尝试使用老舍的散文进行解锁，它实现了整句的理解。这是大型多模态预训练模型出现后，与传统图像理解及NLP领域不同的整句理解能力。我们在理解技术方面已取得显著进展。

研究组正在深入研究AGI（通用人工智能）的实现问题。
埃隆·马斯克预测2029年AGI能够实现，而Gary Marcus对此表示怀疑。
研究组从图像处理发展到视频内容转换为文字，特别是处理长视频如电影。
目标是通过文字、行为和视觉线索深入理解人物关系和社会背景。
使用GPT-4V等先进模型尝试理解电影复杂情节，但效果不佳。
研究组致力于解决多模态联合理解的挑战，认为学术研究应主动解决真正的问题。

但是我们组目前仍在尝试进行更深入的研究。我们面临的一个极具挑战性的课题，也是新加入的同学可能参与的方向。在此，我不仅想介绍我们已完成的工作，还想分享我们正在思考的一些问题，欢迎对此感兴趣的同学加入我们。其中，一个关键问题涉及AGI（通用人工智能）的实现。关于这一点，曾有一场辩论，其中特斯拉创始人埃隆·马斯克持乐观态度，认为2029年AGI能够实现。而另一位知名批评家Gary Marcus则对此表示怀疑。Marcus不仅个性鲜明，而且对神经网络持反对态度，他质疑2029年实现AGI的可能性，并提出了大约十个目前大型模型无法完成的场景。其中第一个场景与我们组特别关注的任务高度契合。我们最初从图像处理开始，通过文本模型将图像转换为文字，效果良好。随后，我们与快手合作开发了文澜3，能够将短视频内容转换为文字。接下来，我们希望处理更长的视频，特别是类似电影的长视频。我们不满足于仅描述视频中的基本事件，如一个小女孩与一男一女对话，而是希望通过文字、行为和视觉线索，深入理解人物关系和社会背景，从而全面理解故事。这一任务对模型的理解能力提出了极高要求。目前，我们使用最先进的模型如GPT-4V尝试此任务，但效果并不理想，模型难以理解电影中的复杂情节和人物关系。电影的信息呈现极为精炼，视觉信息与语言信息不重复，这对多模态联合理解能力提出了巨大挑战。这也是我们组目前投入大量资源研究的方向。作为学术研究者，我们不应仅追随他人，而应主动寻找并解决真正的问题，即使这些问题极具挑战性。接下来，我们将介绍生成方面的工作。

我们可以将这一部分称为创作，而非生成，因为生成更偏向于方法论。实际上，我们也可以使用生成模型来理解。然而，我们在这里的要求更高，即希望它具备一定模仿人类创作者的能力，并创作出独特的内容。

当前大模型虽能进行多种创作，如写作文、写诗、画画等，但作品常显套路化，缺乏深度和情感。
2021年开始探索如何让AI创作更具人情味的作品，通过训练GPT2模型分析歌词创作。
发现真正的创作需要生活体验和情感投入，提出AI是否能拥有体验的问题。
尝试通过让AI观看电影模拟体验，以创作更富情感的歌词。
构建模型将图像和文字映射到同一空间，再翻译成语言模型空间，以生成诗歌，此方法在现代模型中得到应用。

今天大家都知道，所有的大模型都能够写作文、写诗、画画、生成短视频等。虽然这些功能令人欣喜，但作为计算机器、人工智能、电子等相关专业的学生，我们应该思考这些模型存在的不足。例如，虽然AI能够写诗，但其作品往往过于套路化，缺乏深度和情感。我们注意到，即使是简单的歌词，如Bob Dylan的作品，虽然用词简单，却能触动人心，因为它们捕捉了生活中的真实情感和体验。

在2021年，我们开始思考如何让AI创作出更有人情味的作品。我们使用GPT2训练了大量的歌词，试图理解人类如何创作出感人的词句。我们发现，真正的创作需要生活的体验和情感的投入。因此，我们提出了一个问题：AI是否也能拥有体验？我们尝试通过让AI观看电影来模拟体验，从而使其能够创作出更富情感的歌词。

我们构建了一个模型，通过将图像和文字映射到同一空间，然后使用一个项目将这些信息翻译成语言模型的空间。这个模型能够接收这些输入，并生成诗歌。这种结构在今天的模型如拉玛中也被采用，表明我们的探索是正确的。通过这种方式，AI能够更好地理解和表达人类的情感和体验，创作出更有深度的作品。

描述了一系列体验场景，包括夜晚的月亮、男人唱歌、男人小心地开门、月色朦胧的夜晚和流浪歌手的出现。
这些体验场景共同构成了对晚霞的印象。
通过输入这些体验场景，系统生成十句歌词，这些歌词比仅用大模型描述晚霞更具发散性和故事性。
提到了团队还进行了其他生成任务，但未详细说明。

我们可以输入一系列体验场景，如夜晚的月亮、男人唱歌、男人小心地开门、月色朦胧的夜晚以及流浪歌手的出现。这些体验构成了对晚霞的印象。输入这些体验后，系统会生成十句歌词，其结果如右侧所示。相比仅使用大模型描述晚霞，这种方法生成的内容更具发散性和故事性。此外，我们团队还进行了其他生成任务，但在此不再详细说明。

系统通过文本检索背景图像，而非直接生成图像。
系统根据文本内容（如会议地点）自动匹配相应的风景图作为海报背景。
难点在于合理布局文字元素，确保清晰与美观。
模型需识别图像中适合放置文字的区域，并避免纹理丰富的区域。
模型还需学习人类设计规律，自动优化文字位置和对齐。
系统与多个基准线及其他收费系统进行了性能对比。

我们可以从任何文本直接生成海报。这个过程并非通过图像生成，而是基于文本检索背景图像。例如，当得知会议在新加坡举行时，系统会自动匹配新加坡的风景图作为背景。难点在于如何将标题、副标题等文字元素以不同大小摆放在图像上，既要清晰可见，又要美观。图像中某些区域如光滑表面适合放置文字，而纹理丰富的区域如建筑物则可能导致文字不清晰。我们的模型需要处理这些情况。此外，模型还需学习人类设计海报的规律，自动将文字放置在合适位置，并确保对齐。我们与所有基准线及其他系统如阿里收费系统进行了对比。

“Summer Ocean”海报背景过于花哨和杂乱，与前景文字冲突。
采用工程解决方案，创建半透明蒙版减少背景对文字的干扰。
方法通过30轮迭代自动找到居中对齐的位置。
初始效果是将内容放置在画面上三分之一处，后通过模型迭代优化对齐。
该项目是ICASP上的工作，由王雨月同学主持。

比如说第四个结果，即大家所见的“Summer Ocean”海报。该海报在背景图选择上遇到了问题，背景过于花哨和杂乱，与前景文字产生了冲突。因此，我们采用了一种工程解决方案，即创建一个半透明蒙版，以减少背景对文字的干扰。我们的方法可以展示给大家看，最后一张图是我们方法生成的效果。它不仅避免了将“Summer Ocean”置于高亮复杂的背景上，还能自动找到居中对齐的位置，这是通过30轮迭代实现的。大家可以看到，倒数第二张图是我们初始的效果，简单地将内容放置在适当位置，位于画面上三分之一处。随后，我们使用了一个模型进行迭代，类似于在PPT中寻找对齐，逐渐找到了一个更合理的对齐方式。这是我们在ICASP上的工作，也是我们团队目前正在推进的项目，由王雨月同学参与主持。

人类能根据视觉信息推测声音，如看到鹰张嘴联想到叫声。
原视频展示了一只白头鹰在动物园中，品种不明。
以往研究集中在文字语义对齐，识别鸟类叫声，但未充分考虑时序问题。
以往方法存在缺陷，如鹰张嘴时无声音，或声音与动作不同步。
新算法能识别鹰张嘴时应发出叫声，但反应稍慢，声音略晚于动作。
现有方法仍有改进空间，是语音小组当前研究的重点。
语音小组正致力于提出新的解决方案。

我们希望为无声视频添加音效，例如由Sora生成的视频。人类具备根据视觉信息推测声音的能力，如看到鹰张嘴便能联想到其叫声。以原视频为例，视频中展示了一只白头鹰在动物园中的情景，具体品种不明。当鹰张嘴时，我们自然会预期听到相应的声音。以往的研究主要集中在文字语义的对齐上，识别出鸟类或鹰类应有的叫声。然而，这些研究未能充分考虑时序问题，即未能精确模拟何时张嘴应何时发出声音。以往的方法存在明显缺陷，如鹰张嘴时无声音发出，尽管之前有鸟鸣声，这表明算法虽能识别图像中的鸟类并配以相应叫声，但未能准确把握时序关系。我们的算法在此方面有所改进，能识别鹰张嘴时应发出叫声，尽管反应稍慢，声音略晚于张嘴动作。这表明现有方法仍有改进空间，也是我们语音小组当前研究的重点。在创作方面，我们正致力于提出新的解决方案。

大模型在创作故事、诗歌等文本时速度快，但质量不高，创新性不足。
与人类顶尖创作者相比，大模型生成的内容显得套路化，缺乏深度和创新。
大模型的机制导致其倾向于生成概率高的通用内容，难以预测和产生创新火花。
提出可能的解决方案：为大模型设计奖励模型，以评估内容的创新性和情感共鸣。
人类创作者在尝试新词汇搭配时，能判断其是否能被理解和感动，显示出高度的欣赏能力。
创新不仅限于文字技巧，还包括对长视频、故事的理解和素材的选择与组织。
故事中的反转和情节变化能带来新意，是研究组感兴趣的难题。

我们发现，尽管大模型能够迅速地按照要求创作故事、诗歌和各种文本，但深入使用后会发现其质量并不高，创新性也不足，与人类顶尖创作者相比仍有显著差距。例如，对于电视剧《沉香如屑》的主题曲，有两个段落A和B，我们很容易区分出哪一段是由人创作，哪一段是由机器生成。今天由于无法与大家互动，我将直接揭晓答案：B段是由人创作的，A段是由机器生成的。机器创作的内容虽然流畅，如“在仙境的幕间绽放的花朵，静静在风中跳跃，初次相遇的期许，纠葛于五百年的光阴之中，永恒的爱恋，命运的交叠”，但显得较为套路。这与大模型的机制有关，它在学习时总是试图最大化生成概率，从而学习到许多通用内容，而那些罕见的创新火花则不易被预测。因此，解决这一问题可能需要考虑如何让大模型拥有一个奖励模型，使其能够判断生成的内容是否具有创新性，是否能被人们理解和感动。而右边的文字，即创作者的作品，具有高度的欣赏能力，当他们尝试从未有过的词汇搭配时，能够判断出这是否是大家能理解且感动的内容。此外，创新不仅体现在文字技巧上，还包括对长视频和故事的理解，以及对素材的选择和组织。故事中的反转或情节变化往往能给人带来新意，而这种创新又合情合理，这是我们组目前非常感兴趣的难题。第三部分，我想向大家介绍交互。

你也可以将其视为一种理解。

小AI每7秒对视频内容进行一次评论。
评论不仅需要理解视频内容，还需具备语言生成能力，以产生有趣的评论。
视频中，小杰瑞表现出对洗澡和洗衣服的热情，并迅速洗头。
视频还展示了猫的爱心，它不喜欢杀生，体现了对生命的尊重。

例如，在这个演示中，我们的小AI正在观看一段视频，并且每7秒就会发表一次评论。这种交互首先需要理解视频的内容，其次还需要具备语言生成能力，不仅仅是描述，而是要进行有趣的评论。我们可以看到这样的效果：小杰瑞不仅喜欢洗澡，还喜欢洗衣服，每次都迅速洗头，表现出极大的热情。此外，他还提到，这只猫表现出爱心，不喜欢杀生，因为它看到猫和老鼠，所以它是一只有爱心的猫，不喜欢杀生。这种理解体现了对生命的尊重。

当然，这是基于文澜3进行的，实际上并未采用生成方法，而是使用了减缩方法，但效果符合我们的预期，并希望它能够更佳。

文澜系统能够将图像、视频与文字映射到同一空间，实现它们之间的相互解锁。
系统可以对视频内容进行编码，并在同一空间中找到相似视频及其相关评论，进行相似性计算和重新排序。
系统能够识别并标记出优秀的评论，确定合适的表情和语音合成技术来表达。
该技术不仅限于视频评论，还可应用于机器狗等其他领域，通过预设的反应模式使机器行为更加自然和情感化。

未来，我们可以通过生成的方式达到同样出色的效果。正如大家所知，我们的文澜系统能够将图像和视频与文字映射到同一空间，实现它们之间的相互解锁。例如，对于刘畊宏的跳操视频，我们可以将其编码后，在同一空间中找到相似的视频及其相关评论。这些文字可以与跳操视频进行相似性计算，从而重新排序。我们认为“看了好几天怎么还没瘦”是一个很好的评论，因此会对其进行标记，确定使用何种表情表达更佳，并调用相应的表情包和语音合成技术。这就是刚才展示的小demo背后的技术。我们还可以将此技术应用于其他领域，如机器狗，它无需语言表达，而是通过肢体语言和动作来表达情感。当机器狗看到某个视觉对象时，它会产生推理和理解，从而生成相应的动作。例如，看到狗时会开心地摇尾巴，看到蜘蛛则会惊吓后退，遇到美女则会表现出喜悦。这些都是我们预设的反应。这种交互模式加深了理解，使机器狗的行为更加自然和情感化。

利用视频网站上的视频和评论进行情感色彩分析。
开发模型预测图片上传后的情绪反应，并传递情绪标签及强度给机器狗。
机器狗根据接收到的情绪信息选择动作表达情绪。
该技术在2022年已实现，但仍有改进空间。

实际上，与之前提到的AI评论音视频内容类似，我们利用现有视频网站上的大量视频及其下方的评论，通过情感色彩分析方法来判断这些评论所表达的情绪。每当机器狗看到图片并上传至服务器时，我们会运用我们开发的模型进行情绪反应预测，并将情绪标签及强度传递给机器狗。机器狗根据这些信息选择相应的动作来表达情绪。这是我们在2022年实现的效果。尽管目前的大模型已有所进步，但我们认为仍有改进空间。

当前大模型主要依赖用户主动提问来提供解答。
发展趋势是使大模型能够主动感知信息并提出问题，减少用户负担。
2022年的大模型展示了理解场景的能力，如识别蛋糕屋并进行互动。
讲座目的是为了让大家理解这一概念。

我们现在的大模型通常需要用户主动提问才能得到解答，这是朝着更加有用的方向发展。另一个有趣的方向是，大模型能够看到图像或感知到某些知识时，会主动提出问题，而不一定需要用户去问它。这种方式减轻了用户的负担，使用起来更加便捷。例如，这是我们2022年的大模型，在志远发布时，我们使用Demo录制了一些视频，展示了大模型如何真实地理解场景，如识别出一个蛋糕屋，并据此搜索相关视频，通过评论与用户进行互动。由于时间关系，我就不多讲了，希望大家能理解这个概念。我选择在今天进行这个讲座，也是基于这个原因。

ACL最新研究成果已被录取，作者希望分享这些知识和进展。
研究工作由金楚昊同学完成，他放弃了工作机会选择继续攻读博士。
研究专注于长程说服式对话，通过精巧设计收集了大量数据。
研究发现直接AI对话效果不佳，因此采用多步骤方法改进对话质量。
最终生成了35个跨领域的通用对话数据集，并开发了多人对话系统。

我们非常期待ACL最新的研究成果，上周已确认被录取，我希望能将最新的知识和进展分享给大家，这是我最开心的事情。这项工作是关于ACL2024的，由金楚昊同学完成。他从哈工大威海校区通过考研进入高瓴人工智能学院，第一批研究生毕业后，他放弃了美团的offer，选择继续攻读博士，并回到我的团队进行交互研究。这项工作完全是他博一时期独立思考的结果，他自己收集了大量数据，专注于长程说服式对话的研究。目前大模型在这方面还不够擅长，之前的数据收集非常困难，公开数据集仅包含一千个对话会话，而我们收集了几万条，这得益于一个精巧的设计，利用大模型生成了说服式对话。我们发现，如果让两个AI直接对话，它们会非常客气，容易跑题，效果不佳。因此，我们采取了多个步骤，首先从关键词生成场景，为大模型提供更多背景信息，确保多样性。然后结合心理学原则，生成说服策略，并编写剧本，使对话更接近真人交流。最终，我们收集了35个跨领域的通用对话数据集，并开发了相应的模型，这是一个多人的对话系统。

大模型优化单一文本处理，采用奖励模型和DPO方式评估文本得分。
采用XGP模式，结合说服特点，预设多轮对话后的说服效果。
通过用户模型和说服模型模拟多轮对话，由大模型判断说服结果。
使用构造的成对数据，效果优于ChadGPT和GPT4，拥有更多数据。

我们知道大模型目前优化的是单一文本处理，它拥有一个奖励模型，通过DPO的方式，它会告诉你大模型生成这个比生成那个得分更高。这是一种XGP模式。我们在实践中结合了说服的特点，实际上选择用哪句话说服你，并不是看当下它说得好不好，而是要预设从这句话出发和那句话出发，经过多轮对话后，你是否可能被说服。这也是有说服力的人在说服别人时会设想的，根据对语言的了解，从某个角度出发可能会得到同意，而从另一个角度可能会遭到拒绝。因此，需要经过多轮对话后，才能使用用户模型和说服模型模拟多轮对话，再由大模型判断说服结果，从而构造出成对的数据。使用这种数据后，效果非常好，我们可以看到，我们比ChadGPT和GPT4都有更多的数据。

今天我将向大家展示我们的成果。以刚才提到的例子为例，假设我们有一个舒适的背景，接下来我们将使用GPT模型进行演示。

目标：说服同宿舍的同学周天去逛街。
策略：在对话中分析对方意图，判断参与意愿。
示例：提出建议“姐妹们，这个周末我们去逛街吧。”

女生想要说服同宿舍的同学周天去逛街，这是说服目标。接下来，系统将进行初始化，主要预测说服策略。在每一轮对话中，系统会分析对方的意图，判断其是否有意愿参与。例如，系统可能会提出：“姐妹们，这个周末我们去逛街吧。”

新品牌入驻和优惠活动吸引消费者。
个人因作业未完成而不愿参与逛街活动。
模型提出逛街有助于提高审美能力和减压。
个人提出压力大作为不愿逛街的另一理由。

听说很多新品牌入驻了，还有很多优惠活动。例如，我假设自己是雨月，表示不想去，因为我还有很多作业未完成。此时，模型可能会分析出我的困难在于不想逛街。接着，模型会分析并提出，逛街实际上对我们的学习和成长有益，可以提高审美能力，同时也是一种减压方式。我还可以提出另一个难以拒绝的理由，比如我最近感到压力很大。

面对经济困难，建议寻找性价比高的商品。
关注商家促销活动以节省开支。
分享省钱技巧，如团购和积分兑换。

你缺钱，买不起这些商品。别担心，我们可以一起去寻找性价比高的商品，并关注商家的促销活动。这样既能买到心仪的商品，又能节省开支。此外，我们可以分享一些省钱的技巧，如团购和积分兑换，以便在有限的预算内享受更多的购物乐趣。

研究涉及一个N对N的应用程序，特别关注能耗效率。
研究成果通过制作演示版本来展示其实际应用和对人类的影响。
研究者通过实际应用发现并改进AI的不足，如AI在招生协助等任务中的表现。
评价和研究目标主要基于这些演示的效果。
在交互方面，AI与真实人类自然交流的能力仍有差距，如数字人的眼神不自然，影响其真实感。

我们的研究涉及一个N对N的应用程序。该研究在能耗方面表现出色，它总是将自己的工作成果制作成演示版本，从而获得实际意义。通过这种方式，研究者能够直观地了解其工作成果的实际应用及其对人类的影响。同时，研究者也更容易发现工作中的不足之处。他们不是在现有文献中寻找问题，或者钻研某个细节，而是关注现实中的真实问题，例如希望AI能够协助招生等实际任务。当发现AI表现不佳时，研究者会思考如何改进，以及改进后的效果是否能被直观感受到。因此，评价和研究目标通常源自这些演示。

在交互方面，尽管取得了一些进展，但AI与模拟真实人类自然交流的能力仍有很大差距。例如，尽管数字人外观精美，但人们往往忽视了其眼神的不自然，这也是数字人给人感觉不真实、缺乏生命力的原因之一。

描述了一个人的眼神和行为像数字主持人，按照预设程序进行，缺乏真正的交互性。
指出即使面对突发事件，该人也不会做出反应，因为其行为是单向的。
提到目前正在研究使用眼动仪等设备来增强交互体验，使被试者在观看图像时能听到相关信息。

他的眼神是经过编排的，就像在一些场馆参观时，由数字主持人介绍展品。即使你试图吓唬他或现场发生事件，他也不会理会，因为他只是按照预设的程序前进，非常像电视中的主持人，是单向的。虽然他能听你说话并作出回应，但他的眼神和动作并未真正实现交互，没有理解当前场景和应采取的行动。目前，我们正在研究如何通过眼动仪等设备，让被试者在观看屏幕上的图像时，同时听到相关信息，以增强交互体验。

我们来记录他的眼动轨迹，并研究人们如何跟踪这一过程。接着，我们构建一个模型来模拟这一现象，这就是多模态场景下的眼动轨迹预测演示的效果。

在多模态场景下，当演讲者发言时，其眼动轨迹呈现左右移动的特征，随着话题的推进，眼动轨迹亦随之变化。

作者邀请大家加入其团队，共同深入研究某个方向。
描述了一个简单的设定场景，包括图示和文字描述。
在日常生活中，作者更倾向于分享有趣的事情和倾诉烦恼，而不是详细描述街景。
提出了一个关于眼睛移动如何显得自然的问题。
提到楚昊带领团队研究的动作项目，并计划展示相关成果。

这是非常初步的，大家加入我的团队后还可以继续深入研究这个方向。我们设定的场景很简单，有图示，也有相应的描述。然而，在日常生活中，当我们一起逛街时，我可能不会详细描述街景。相反，我会与他分享有趣的事情，同时倾诉最近的烦恼。我可能会随时指出某个物品很漂亮，或是谈论一些生活中的困扰。在这种情况下，眼睛应该如何移动，才能显得更加自然，更像一个真实的人，这是一个非常有趣的问题。此外，我们的动作，这也是楚昊最近带领团队研究的一个项目，我们将为大家展示。我们可以在这里描述这个人的动作，无论是中文还是英文，都可以说明这个人做了哪些动作。例如，

一个人摔倒了，然后他爬起来，翻了一个跟头。我将这个描述发送给我们的模型，模型会花费一些时间来处理。

他会首先预测动作的时长，随后生成一段较长的视频。视频中的角色为一个火柴人，我们可以观察到他摔倒的情景。

站不起来是吧，接着它爬起来了，然后又摔倒了，非常赖皮。大概是在循环播放，效果并不理想。但其他模型相比我们的模型差距更大，这个问题确实非常困难。总结一下，就是在我们中国人民大学高瓴人工智能学院，

小组专注于多模态问题研究，包括视觉、音频和语言。
小组内成员至少掌握两种模态的研究技能。
研究方法涉及理解与生成，或将两者视为交互问题。
鼓励采用交互式研究方法。
作者身份为高丽玲和孟学员的老师，名为宋瑞华。

特别是我的小组中，我们非常关注多模态问题。我们的小组包括从事视觉、音频和语言研究的同学。在大组中，我们分为几个小组，每位成员至少能学习到两种模态。我们的研究方法或问题通常涉及理解与生成，或者将理解和生成视为一个交互问题来处理，我们鼓励大家采用这种方式进行研究。我是高丽玲和孟学员的老师，宋瑞华。

演讲者欢迎准备推研考研的同学添加其微信，以便及时交流。
演讲者提到自己较少查看邮件，建议通过微信沟通。
演讲者所在的团队致力于研发“做活的AI”。
演讲者简述了多模态理解的方法，包括设计针对不同模态的编码器和使用强大的语言模型。
在生成方面，演讲者提到了使用Diffusion模型进行声音频谱的生成。
在交互方面，演讲者讨论了文本到动作的交互和更复杂的屏幕前互动。

因为在座的感兴趣的同学应该是今年可能准备推研考研的同学。欢迎大家添加我的微信，我稍后会通过。由于我较少查看邮件，同学们发来的邮件可能无法及时回复。但通过微信，我们可以及时交流消息和问题。我们组的目标和愿景是研发“做活的AI”。谢谢大家。接下来是提问环节，如果大家有问题可以私聊我，我不是主持人。老师现在有个问题。这个问题较长，涉及理解、生成和交互的问题。在我的讲座中，我没有详细讲解我们的方法和模型，但大家可以看到，我们在进行多模态理解时，首先需要针对不同模态设计编码器，如针对图像的强大编码器，以便将其理解并与语言对齐。此外，还需要更深层次的理解，这需要一个能够遵循指令的强大语言模型，以理解问题并预测期望的答案。在生成方面，我们通常使用Diffusion模型，例如在语音项目中，我们以视频序列为输入，生成声音频谱，再通过vocoder转换为声音。在交互方面，虽然形式不同，但方法与理解和生成类似，如文本到动作的交互，需要将动作和文本编码，并使用大型语言模型学习。此外，还有更复杂的交互，如屏幕前的互动，AI需要理解用户的意图并做出相应的动作反应。

输入输出系统包含理解模块和生成模块，以实现复杂功能。
校外同学可通过添加老师微信或查看Google Scholar上的论文来了解和参与研究。
近期有县令营活动，包括考核、录取和候选阶段，提供面对面交流机会。
由于团队庞大，老师较少提供实习机会，更倾向于通过县令营选拔人才。
县令营后进行双向选择，导师和学生相互选择，老师会安排时间与学生交流。

我们的输入输出系统比单纯的理解和生成更为复杂。因此，它需要包含一个理解模块和一个生成模块，以实现这一目标。冯老师，有同学询问，如果校外的同学对我们的工作感兴趣，他们可以通过什么方式参与或交流？我认为，首先可以通过添加老师的微信进行联系，因为老师较少查看电子邮件，微信联系更为迅速。此外，我今早已将主页更新任务交给了同事。大家也可以通过Google Scholar等平台查看老师的论文，这些论文有助于更深入地了解研究方向是否符合个人兴趣。近期，大家可能需要报名参加县令营，该过程包括考核和录取，还有候选阶段。在此过程中，我们仍有机会进行面对面的交流。过去几年，我较少邀请同学来实习，因为我们的团队已经相当庞大，包括十名博士和六名硕士。我没有足够的空间提供实习机会，因此较少采用这种方式选拔人才。我更希望同学们能充分准备县令营，并报考我，然后准备面试和笔试，因为这些环节竞争相当激烈。通过营地活动获得资格后，我们将进行双向选择，即学生选择导师，导师选择学生。届时，我们可以进一步相互了解。我会专门安排时间与每位同学进行交谈，如果距离近可以直接面谈，如果距离远则可以在线交流。

VIT和Swin Transformer的选择取决于具体任务，可以通过实验来验证哪种方法更有效。
社区分享氛围浓厚，GitHub和论坛上的经验分享有助于了解不同方法的尝试和结论。
多模态理解是将外部信息内化成文字，从浅到深地理解事物。
深层生成是从内向外的过程，将想法转化为图像、视频或声音。
交互是从外到外的过程，涉及理解、推理和深层生成，最终通过身体动作表达。

这个问题是在探讨多模态是否更多地采用VIT而非Swin Transformer。实际上，VIT的应用确实更为广泛。选择哪种技术，关键在于你正在进行的任务。人工智能作为一门科学，其优势在于可以通过实验来验证。你不必仅凭信念或道听途说来做出选择，而是可以通过实验来决定哪种方法更有效。同时，社区内的分享氛围非常浓厚，你可以在GitHub或论坛上看到其他人在类似问题上的经验分享。虽然单个人的意见可能不够准确，但多方面的意见可以帮助你了解他人的尝试和结论。这可能是主要的方法。

最后一个问题是关于多模态理解生成和交互的各自目的和意义。多模态的理解是将外部信息内化，例如看到视频、听到声音或阅读小说后，如何将其转化为文字。这就像人类从浅到深地理解事物一样。例如，如果只是简单描述两个人在办公室开会，这是一种较浅的理解。而如果描述一个老师和学生在直播，这就更深入一些。更深入的理解可能包括识别出这是高瓴人工智能学院的老师在讲某个主题的讲座，学生则协助进行主持和其他辅助工作。因此，理解是从外部感官信号内化成文字，进而进行问答的过程。

深层生成则是一个从内向外的过程，例如，我有一个想法，想画一幅画，我只需告诉模型我想画什么，比如一头牛飞在天上，下面是一片湖水，模型就能帮我画出来。这种深层生成最终会转化为常见的图像、视频或声音，其输入通常是文字，也可能是一个视频或音频。

交互则是从外到外的过程，例如，当一个人做出动作时，你的反应可能是躲避或回应。要做好这种向外表达，需要一个从内到外的过程，即先理解对方的意图，然后做出相应的动作。因此，交互涉及理解、推理和深层生成，最终通过操纵身体来执行动作。

好的，如果没有其他问题，非常感谢大家参加这次讲座，并欢迎大家报名我们学院和研究组。谢谢大家，再见。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述