每日AIGC最新进展(21)：清华大学提出从人体运动和视频中理解人类行为MotionLLM、武汉大学提出连贯的声音和全身动作RapVerse、浙江大学Streaming Video Diffusion

沉迷单车的追风少年

已于 2024-06-07 10:56:41 修改

阅读量256

点赞数 7

分类专栏：面试经验记录 Diffusion Models与深度学习文章标签：算法人工智能深度学习扩散模型 stable diffusion 计算机视觉

于 2024-06-07 07:45:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41895747/article/details/125934718

版权

Diffusion Models与深度学习同时被 2 个专栏收录

297 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

面试经验记录

26 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本篇博客介绍了三项人工智能领域的最新成果：MotionLLM通过结合视频和运动数据理解人类行为，RapVerse能从文本生成连贯的声音和全身动作，Streaming Video Diffusion则实现了在线视频编辑。这些研究涵盖了深度学习、扩散模型和计算机视觉等领域，推动了多模态理解和生成技术的发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Diffusion Models专栏文章汇总：入门与实战

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

本研究提出了一种名为MotionLLM的新型框架，旨在通过结合视频和运动序列（如SMPL序列）的多模态数据，利用大型语言模型（LLMs）的能力来理解人类行为。与以往只针对视频或运动数据的LLMs不同，MotionLLM强调了联合建模的必要性，以更准确、全面地捕捉身体动态和语义。研究团队创建了MoVid数据集，并提出了MoVid-Bench基准测试，用于评估模型对视频和运动中人类行为理解的性能。

MotionLLM采用统一的视频-运动训练策略，结合了现有粗糙视频-文本数据和精细运动-文本数据的互补优势，以获得丰富的时空洞察。该框架包括两个阶段：第一阶段，通过可训练的运动/视频转换器࿰

了解本专栏

超级会员免费看

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沉迷单车的追风少年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。