EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS(使用大型语言模型进行动态感知文本到视频扩散)学习笔记
motivation:
解决四个问题,lower frame resolution(较低的帧分辨率), unsmooth video transition(不平滑的视频过渡), crude video motion(粗糙的视频运动) and action occurrence disorder(动作发生障碍)
contribution:
第一次尝试利用llm进行行动规划和场景想象
method
CLIP编码和Dysen编码有什么区别,如何同时使用
Dysen模块
解决的问题:文本prompt中对运动的描述一般不够丰富,且文字描述顺序可能与物体运动时序不同
产生DSG:动态场景管理器
分三个步骤
第一步:动作规划,输入text prompt,输出action schedule(主谓宾,时间)
第二步:事件向DSG(DYNAMIC SCENE GRAPH动态场景图)转变
根据事件的发生顺序和持续时间,在每一帧中,我们添加或删除主谓宾三元组,直到处理最后一个事件。
第三步:场景想象,丰富(添加或改变)主谓宾三元组,对当前SG(SCENE GRAPH场景图)操作时,考虑当前、先前(丰富)和之后的内容
‘sitting’ can be broken down into a consecutive motion chain: ‘approaching’→’near to’→’sitting’.
recurrent graph Transformer (RGTrm)循环图Transformer
输入DSG
G
=
{
G
1
,
⋯
,
G
M
}
G=\{G_{1},\cdots,G_{M}\}
G={G1,⋯,GM},输出等价于CLIP编码
CLIP编码和Dysen编码有什么区别,如何同时使用
原始的 3D-UNet 具有时空特征建模,但它受到粗粒度操作的限制
在交叉注意中插入一个额外的Transformer块来融合细粒度的
H
G
H^G
HG 表示,然后插入另一个交叉注意来进一步融合原始文本表示
H
Y
H^Y
HY