2023智源大会议程公开 | 生成模型论坛

智源社区

于 2023-05-22 20:02:03 发布

阅读量424

点赞数

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/130818342

版权

2023年，人工智能新研究、新系统、新产品竞放——我们即将见证另一场有关智能的惊叹演化。6月9日，2023北京智源大会，将邀请这一领域的探索者、实践者、以及关心智能科学的每个人，共同拉开未来舞台的帷幕，你准备好了吗？与会知名嘉宾包括，2019年图灵奖得主Yann LeCun、图灵奖得主Geoffrey Hinton、图灵奖得主Joseph Sifakis、诺贝尔奖得主Arieh Warshel、未来生命研究所创始人Max Tegmark、2021年科学突破奖得主David Baker、2022吴文俊最高成就奖得主郑南宁院士以及中国科学院张钹院士等。目前已正式开放大会线上报名渠道。大会将同步向全球线上直播。

北京智源大会倒计时：19天

生成模型论坛背景

内容生成是一项极富挑战且通用的智能任务。随着概率建模方法的快速发展和模型规模的急速增长，以自回归模型、生成对抗网络、扩散概率模型为代表的深度生成模型在语言、视觉、语音、跨模态等数据上取得了一系列进展。特别地，基于预训练的深度生成大模型在众多下游任务取得了新的突破。可以预见到，深度生成模型将会给学术界和工业界带来冲击和新的机遇。本次论坛邀请到五位生成模型领域的国内外著名学者围绕生成模型基础理论与算法、可控生成以及语音、三维场景、多模态生成等前沿领域带来精彩报告，并聚焦大家最关心的进展，讨论如何看待生成式AI的发展，包括数据的偏性，模型的安全性等亟待解决的问题。希望以此论坛为契机，共同展望生成式AI的未来，碰撞出学术的火花！

论坛议程

论坛主席

李崇轩，中国人民大学高瓴人工智能学院准聘助理教授，博士生导师

研究方向为深度概率学习，李崇轩获 ICLR 杰出论文奖，吴文俊人工智能自然科学奖一等奖，吴文俊人工智能优秀青年奖，中国计算机学会优秀博士学位论文奖，北京市科技新星，中国博士后创新人才支持计划。主持国家自然科学基金面上项目，教育部产学结合协同育人项目等。

论坛主席丨主持人

陈键飞，清华大学助理教授

陈键飞于2014年和2019年分别在清华大学获得了计算机科学的学士和博士学位，并在TSAIL组与朱军教授合作。他的研究兴趣包括高效机器学习，特别是量化神经网络、随机优化算法和概率推理算法。在过去，他还开发了几个可扩展的主题模型训练系统。2019年，陈键飞因杰出的工作获得了CCF优秀博士学位论文奖。他还曾在2009年获得中国信息学奥林匹克竞赛金牌。2018年，陈键飞共同创立了RealAI，这是他职业生涯中的一个显著成就。

演讲主题及嘉宾介绍

1、Recent advances in score-based diffusion models

议题简介：Generative models are typically based on explicit representations of probability distributions (e.g., autoregressive) or implicit sampling procedures (e.g., GANs). I will present an alternative approach based on modeling directly the vector field of gradients of the data distribution (scores) which underliesrecent score-based diffusion models. This framework allows flexible architectures, requires no sampling during training or the use of adversarial training methods. Additionally, score-based diffusion generative models enable exact likelihood evaluation through connections with neural ODEs, achieving state-of-the-art sample quality and excellent likelihoods on image datasets. I will discuss numerical and distillation methods to accelerate sampling and their application to inverse problem solving.

Stefano Ermon，斯坦福大学计算机科学系副教授

Stefano Ermon是斯坦福大学计算机科学系的副教授，隶属于人工智能实验室，同时也是伍兹环境研究所的研究员。他的研究方向是机器学习和生成式人工智能。他喜欢开发具有原则性的方法，这些方法受到具体的现实世界应用和广泛社会问题的推动。

2、多模态生成式语音模型

议题简介：AIGC在最近几个月获得了巨大的突破，用户可以输入自然语言生成图像、视频、音频、甚至是3D模型。现有跨模态语音生成方法在人机交互场景下，存在着存在着合成推理的实时性、可控性和通用性等挑战。针对上述挑战，本次报告主要介绍跨模态生成式语音模型中频谱图合成的并行化推理、多峰性建模、轻量级推理、高表现力建模、泛化学习、多模态可控、多任务通用合成等工作（NATSpeech、DiffSpeech和AudioGPT）。

赵洲，浙江大学计算机学院教授、博士生导师

主要研究方向为自然语言理解、计算机视觉计算和生成式模型，在国际期刊和会议上发表50余篇论文，谷歌学术引用8000多次。完成了多个多模态生成式模型的工作，如生成式语音模型（NATSpeech、DiffSinger、Make-An-Audio、AudioGPT）和生成式视觉模型（PNDM、PDAE和GeneFace）等，应用于微软、华为、Stable-Diffusion和字节等科技公司产品中，获教育部科技进步一等奖、中国电子学会科技进步一等奖。

3、“低资源”的多语言文生图模型AltDiffusion-M18

议题简介：AltDiffusion-M18是一种多语言文生图模型，它采用AltCLIP-M18的多语言文本编码器来扩展SD框架的输入语言，支持18种不同的语言输入。实验结果表明，AltDiffusion-M18在英文方面表现与原始SD模型相当，同时在其他非英文文本到图像生成模型方面取得了SOTA的性能。该研究推进了跨语言图像生成技术的发展，为在不同语言环境下使用文本到图像技术开辟了新的可能性。

刘广，北京智源人工智能研究院 NLP与多模态研究中心，算法研究员

北京邮电大学智能科学与技术博士。FlagAI核心贡献者，主要研究LLM和多模态文图生成方向。

4、Controllable and Interactive Scene Generation from Bird Eyes View Layout （基于鸟瞰图的可控和可交互的大规模场景生成）

议题简介：本报告将分享课题组在可控和可交互场景生成研究方向的一些最新研究成果，涉及生成式神经场(Generative Radiance Fields)和MetaDriverse自动驾驶模拟器等工作。

周博磊，加州大学洛杉矶分校计算机科学系的助理教授

他的研究方向是计算机视觉和机器自主性中的可解释人工智能交互。他还对当前AI模型的各种人本属性感兴趣，这些属性超越了它们的准确性，例如可解释性，可控性，泛化性和安全性。他合作发表的一些早期作品包括Class Activation Mapping（CAM），Places，ADE20K和Network Dissection。

5、Understanding the Visual World Through Naturally Supervised Code

议题简介： The visual world has its inherent structure: scenes are made of multiple identical objects; different objects may have the same color or material, with a regular layout; each object can be symmetric and have repetitive parts. How can we infer, represent, and use such structure from raw data, without hampering the expressiveness of neural networks? In this talk, I will demonstrate that such structure, or code, can be learned from natural supervision. Here, natural supervision can be from pixels, where neuro-symbolic methods automatically discover repetitive parts and objects for scene synthesis. It can also be from objects, where humans during fabrication introduce priors that can be leveraged by machines to infer regular intrinsics such as texture and material. When solving these problems, structured representations and neural nets play complementary roles: it is more data-efficient to learn with structured representations, and they generalize better to new scenarios with robustly captured high-level information; neural nets effectively extract complex, low-level features from cluttered and noisy visual data.

吴佳俊，斯坦福大学计算机科学系助理教授

隶属于斯坦福人工智能实验室（SAIL）和斯坦福视觉与学习实验室（SVL）。他的研究方向是机器感知、推理和与物理世界的交互，从人类认知中汲取灵感。在加入斯坦福之前，吴佳俊曾在Google Research纽约分部担任访问教职研究员，与Noah Snavely合作。他在MIT获得博士学位，导师为Bill Freeman和Josh Tenenbaum，并在清华大学获得学士学位，师从Zhuowen Tu教授。

6、圆桌讨论

圆桌论坛嘉宾：

陈键飞，清华大学助理教授

朱军，清华大学教授

周博磊，加州大学洛杉矶分校助理教授

吴佳俊，斯坦福大学助理教授

李崇轩，中国人民大学准聘助理教授

扫码二维码或点击「阅读原文」报名线下参会&线上直播