EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS学习笔记

最新推荐文章于 2024-09-12 20:16:16 发布

kangxi11122344

最新推荐文章于 2024-09-12 20:16:16 发布

阅读量168

点赞数

文章标签：语言模型学习笔记

本文链接：https://blog.csdn.net/kangxi11122344/article/details/132817109

版权

...通过动作规划和动态场景管理，结合CLIP和3D-UNet改进。

摘要由CSDN通过智能技术生成

EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS（使用大型语言模型进行动态感知文本到视频扩散）学习笔记

method
- Dysen模块
- recurrent graph Transformer (RGTrm)循环图Transformer

在这里插入图片描述

motivation：
解决四个问题，lower frame resolution（较低的帧分辨率）, unsmooth video transition（不平滑的视频过渡）, crude video motion（粗糙的视频运动） and action occurrence disorder（动作发生障碍）
contribution：
第一次尝试利用llm进行行动规划和场景想象

method

在这里插入图片描述 CLIP编码和Dysen编码有什么区别，如何同时使用

Dysen模块

解决的问题：文本prompt中对运动的描述一般不够丰富，且文字描述顺序可能与物体运动时序不同
产生DSG：动态场景管理器
分三个步骤
在这里插入图片描述
第一步：动作规划，输入text prompt，输出action schedule（主谓宾，时间）
第二步：事件向DSG（DYNAMIC SCENE GRAPH动态场景图）转变
根据事件的发生顺序和持续时间，在每一帧中，我们添加或删除主谓宾三元组，直到处理最后一个事件。
第三步：场景想象，丰富（添加或改变）主谓宾三元组，对当前SG（SCENE GRAPH场景图）操作时，考虑当前、先前（丰富）和之后的内容
‘sitting’ can be broken down into a consecutive motion chain: ‘approaching’→’near to’→’sitting’.

recurrent graph Transformer (RGTrm)循环图Transformer

输入DSG $G=\{G_{1},\cdots,G_{M}\}$ ，输出等价于CLIP编码

CLIP编码和Dysen编码有什么区别，如何同时使用

在这里插入图片描述
原始的 3D-UNet 具有时空特征建模，但它受到粗粒度操作的限制
在交叉注意中插入一个额外的Transformer块来融合细粒度的 $H^G$ 表示，然后插入另一个交叉注意来进一步融合原始文本表示 $H^Y$

kangxi11122344

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫