EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS学习笔记

...通过动作规划和动态场景管理,结合CLIP和3D-UNet改进。
摘要由CSDN通过智能技术生成

EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS(使用大型语言模型进行动态感知文本到视频扩散)学习笔记

在这里插入图片描述

motivation:
解决四个问题,lower frame resolution(较低的帧分辨率), unsmooth video transition(不平滑的视频过渡), crude video motion(粗糙的视频运动) and action occurrence disorder(动作发生障碍)
contribution:
第一次尝试利用llm进行行动规划和场景想象

method

在这里插入图片描述CLIP编码和Dysen编码有什么区别,如何同时使用

Dysen模块

解决的问题:文本prompt中对运动的描述一般不够丰富,且文字描述顺序可能与物体运动时序不同
产生DSG:动态场景管理器
分三个步骤
在这里插入图片描述
第一步:动作规划,输入text prompt,输出action schedule(主谓宾,时间)
第二步:事件向DSG(DYNAMIC SCENE GRAPH动态场景图)转变
根据事件的发生顺序和持续时间,在每一帧中,我们添加或删除主谓宾三元组,直到处理最后一个事件。
第三步:场景想象,丰富(添加或改变)主谓宾三元组,对当前SG(SCENE GRAPH场景图)操作时,考虑当前、先前(丰富)和之后的内容
‘sitting’ can be broken down into a consecutive motion chain: ‘approaching’→’near to’→’sitting’.

recurrent graph Transformer (RGTrm)循环图Transformer

输入DSG G = { G 1 , ⋯   , G M } G=\{G_{1},\cdots,G_{M}\} G={G1,,GM},输出等价于CLIP编码




CLIP编码和Dysen编码有什么区别,如何同时使用

在这里插入图片描述
原始的 3D-UNet 具有时空特征建模,但它受到粗粒度操作的限制
在交叉注意中插入一个额外的Transformer块来融合细粒度的 H G H^G HG 表示,然后插入另一个交叉注意来进一步融合原始文本表示 H Y H^Y HY

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值