VALSE 2024主旨报告内容解析：大模型时代的机遇和挑战

audyxiao001

已于 2024-05-07 09:10:48 修改

阅读量1.8k

点赞数 24

文章标签：人工智能大数据机器学习深度学习语言模型

于 2024-05-07 09:00:28 首次发布

本文链接：https://blog.csdn.net/audyxiao001/article/details/138518705

版权

视觉与学习青年学者研讨会（VALSE）旨在为从事计算机视觉、图像处理、模式识别与机器学习研究的中国青年学者提供一个广泛而深入的学术交流平台。该平台坚持和提倡理性批判、勇于探索、实证和创新的科学精神；在自由平等原则下，支持理性而纯学术的多方辩论和思想碰撞。该平台旨在促进国内青年学者的思想交流和学术合作，以期在相关领域做出显著的学术贡献，并提升中国学者在国际学术舞台上的影响力。

2024年视觉与学习青年学者研讨会（VALSE 2024）于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道，方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述，可能与报告人的原意有所不同，敬请读者理解；如报告人认为文章与自己报告的内容差别较大，可以联系公众号删除。

5月5日的VALSE 2024会议主要内容包括开幕式、多场重要的主旨报告、特邀报告、年度进展评述、铂金企业宣讲等。

3个大会主旨报告:来自清华大学的沈向洋博士、胡事民院士和中国电信人工智能研究院（TeleAI）的李学龙院长呈现了3个大会主旨报告，分别为《大模型时代的机遇和挑战》、《以深度学习框架为牵引促进自主AI生态发展》和《从洞穴的影子到智能的光辉——连接和交互方式的改变塑造未来生活》。

3个企业宣讲：视拓云、华为和马上消费三家公司的代表分别就各自企业人工智能技术的发展和最新成果进行了宣讲。

4个大会特邀报告:涵盖了图像生成和视频生成的前沿技术、混合模型驱动的内容生成与具身智能、多模态视觉融合的性能极限探索、三维场景理解的历史、现状与未来趋势等主题。这些主题反映了会议对于人工智能在图像处理、视频生成、以及三维模型理解等领域最新研究的关注。

12个年度进展评述:重点回顾了视觉通用人工智能、视频生成、多模态感知与交互、以及基于三维高斯泼溅等研究领域的最新研究进展。此外，还探讨了神经形态相机视觉计算、面向大模型的高效率网络架构、视觉基础大模型、以及世界模型增强的自动驾驶等领域的最新研究成果。

本文主要对对于来自清华大学的沈向洋博士所做的大会主旨报告《大模型时代的机遇和挑战》进行介绍。

1.报告人简介

沈向洋博士，美国国家工程院外籍院士，现任香港科技大学校董会主席、粤港澳大湾区数字经济研究院创院理事长、清华大学高等研究院双聘教授。沈博士曾任微软公司执行副总裁，负责推动公司中长期总体技术战略及前瞻性研究与开发工作，主管微软全球研究院和人工智能产品线，覆盖人工智能基础设施、服务、应用以及智能助理业务。他参与创立微软亚洲研究院，并担任院长兼首席科学家，为中国和世界培养了众多一流的计算机科学家、技术专家和企业家。（资料来源： VALSE 2024官网）。

2.报告概览

大模型是一个融合技术、市场、治理等多要素的概念，将深刻影响人们工作生活的方方面面，给经济、社会和行业带来新的机遇和挑战。面对大模型的迅猛发展，如何驭之以道、律之以法、束之以德，有效释放技术突破的力量，在安全和发展中取得平衡，让技术融入社会、造福人类，是我们必须回答好的重要课题。演讲将选取技术、市场、治理等维度，讨论大模型时代的机遇和挑战，并提出几点思考。

3.内容整理

沈向洋博士讲述了2023年来大模型分别在文本/图像和音频/视频上的发展历程，给出了常见的大模型名称及其开源信息。他说在过去这段时间，有三件关于大模型的事情让大家大为震撼。第一件事情是文生图（Text to Image），即所谓的“一图胜千言”，使用AI由文本生成图像。第二件事情是文生文（Text to Text），即由文字生成文字。在文生文中，提示语言可以产生“一句顶一万句”的效果，问一句话可以给你很多非常好的答案，如ChatGPT。第三件事情是文生视频（Text to Video），即由文字生成视频。Sora就此诞生，可以用提示词生成高质量的长视频。

接着沈向洋博士又列举了几个纯语言模型和多模态模型，解释了为什么我们需要多模态，因为世界的本质是多模态的（语言+视觉+听觉等）。同时也陈述了现有多模态框架的不足，如双塔结构-CLIP（缺乏生成式监督和潜在的特征坍缩问题）、跨模态对齐-BLIP-2（单一图像理解任务和缺乏上下文理解）、文生图-LDM（单一文生图任务和缺少对图片的语义理解）。

沈向洋博士还对多模态理解和生成统一的必然性和可能性展开了论述，讲述了通往AGI的路径方向，早期阶段（各个模态独立发展）、当前阶段（多模融合：模态融合&任务融合）、未来阶段（主动探索物理世界）。首先，他介绍了多模态理解与生成一体化模型DreamLLM，其框架如图1所示。论文链接：https://arxiv.org/abs/2309.11499。DreamLLM是一个学习框架，实现了通用的多模态大型语言模型（Multimodal Large Language Models，MLLMs），该模型利用了多模态理解和创造之间经常被忽视的协同作用。DreamLLM的运作遵循两个基本原则：一是在原始多模态空间中通过直接采样对语言和图像后验进行生成建模有助于获取更彻底的多模态理解。二是促进了原始、交错文档的生成，对文本和图像内容以及非结构化布局进行建模，使得模型能够有效地学习所有条件、边际和联合多模式分布。

图 1 DreamLLM的框架

随后，他介绍了自动驾驶的一个通用世界模型ADriver-I，其架构如图2所示。论文链接：https://arxiv.org/abs/2311.13549 。ADriver-I引入了交错的视觉-动作对的概念，它统一了视觉特征和控制信号的格式。基于视觉-动作对，构建一个基于MLLM和扩散模型的自动驾驶通用世界模型。

图 2 ADriver-I的架构

然后，他介绍了多模态大模型跃问，其界面如图3所示。跃问大模型的官方网站为跃问。跃问大模型是由阶跃星辰公司推出的一个基于Step-1和Step-1V千亿参数大模型的AI效率工具。它能够理解和生成文本，分析图像内容，为用户提供信息查询、语言学习、创意写作、图文解读、一键生成信息长图等多样化服务。跃问大模型极大提升了信息获取和内容产出的效率，帮助用户在工作、学习、生活等各种场景下解决问题。