Talk|北京大学PKU-DAIR余昭辰:从多模态理解到生成 - 从LLM到Diffusion Model

本期为TechBeat人工智能社区第603期线上Talk。

北京时间6月26日(周三)20:00,北京大学PKU-DAIR实习生—余昭辰的Talk已经准时在TechBeat人工智能社区开播!

他与大家分享的主题是: “从多模态理解到生成 - 从LLM到Diffusion Model”,在本次Talk中,他向大家介绍了PKU-DAIR课题组在大语言模型和扩散模型两个领域上的最新研究成果,并提出将LLM和Diffusion Model进行结合的新思路。

Talk·信息

主题: 从多模态理解到生成 - 从LLM到Diffusion Model

嘉宾:北京大学PKU-DAIR实习生 余昭辰

时间:北京时间 6月26日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=882

Talk·介绍

大语言模型(Large Language Models, LLMs)与扩散模型(Diffusion Models)都是生成模型,可以根据输入条件生成新的数据样本。大语言模型主要生成文本,扩散模型生成图像或其他形式的数据。两者都是当前人工智能研究的热点领域,LLM/MLLM更侧重于多模态数据的理解与推理,而Diffusion Model更侧重于生成多模态数据,建模其分布。本次talk将介绍本课题组在两个领域上的最新研究成果,并提出将LLM和Diffusion Model进行结合的新思路。

Talk大纲

1. 增强大语言模型推理的思维缓存方法——Buffer of Thought

2. 将扩散模型用于不同数据建模生成:

(1)文生视频——ContextDiff;

(2)文生3D——IPDreamer;

(3)3D小分子药物设计——IRDiff

3. 将LLM与Diffusion Model进行结合,用于复杂多模态数据生成:

(1)组合式/长文本文生图——RPG;

(2)组合式/复杂文生视频——VideoTetris;

(3)拥有世界知识的图形编辑器——EditWorld

Talk·预习资料

图片

论文链接:

https://arxiv.org/abs/2406.04271

项目名称:

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

项目链接:

https://github.com/YangLing0818/buffer-of-thought-llm

图片

论文链接:

https://openreview.net/forum?id=nFMS6wF2xq

项目名称:

Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing - ICLR 2024

项目链接:

https://github.com/YangLing0818/ContextDiff

图片

论文链接:

https://arxiv.org/2310.05375

项目名称:

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

项目链接:

https://github.com/YangLing0818/IPDreamer

图片

论文链接:

https://openreview.net/forum?id=eejhD9FCP3

项目名称:

Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation (ICML 2024)

项目链接:

https://github.com/YangLing0818/IRDiff

图片

论文链接:

https://arxiv.org/2401.11708

项目名称:

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs - ICML 2024

项目链接:

https://github.com/YangLing0818/RPG-DiffusionMaster

图片

论文链接:

https://arxiv.org/2406.04277

项目名称:

VideoTetris: Towards Compositional Text-To-Video Generation

项目链接:

https://github.com/YangLing0818/VideoTetris

图片

论文链接:

https://arxiv.org/2405.14785

项目名称:

EditWorld: Simulating World Dynamics for Instruction-Following Image Editing

项目链接:

https://github.com/YangLing0818/EditWorld

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

余昭辰

北京大学PKU-DAIR · 实习生

余昭辰,北京大学数据与智能实验室(PKU-DAIR)本科实习生,研究方向为扩散模型与大模型,已在ICLR、ICML等顶会上一作发表两篇论文,担任NeurIPS等顶会审稿人。

个人主页: 

https://www.techbeat.net/grzytrkj?id=38118


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

  • 23
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值