REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION学习笔记

REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION)学习笔记


在这里插入图片描述
motivation:
由于计算和内存资源的限制,将LDM用于t2v任务挑战性较大
单个LDM通常只能生成非常有限的视频帧数,且需要额外的训练成本和帧级抖动
contribution:
Reuse and Diffuse(重用和扩散),根据LDM已经生成的帧生成更多的帧(以具有少量帧的初始视频片段为条件,通过重用原始潜在特征并遵循先前的扩散过程来迭代生成额外的帧。)
对autoencoder插入时间层进行finetuning实现时间一致性
还提出了一套策略,用于组合视频文本数据

method

stable diffusion在t2i任务中表现较好,视频合成任务会加载预训练的LDM(Variational Auto-Encoder (VAE)和U-Net)
通过注入图中虚线框标记的temporal layer(时间层)来适应原始的U-Net,进行图像扩散到视频合成的转变。
在这里插入图片描述
temporal layer分为Temp-Conv(3D卷积层)、Temp-Attn(temporal attention layers)
除了这两个层,其他大多数网络层都使用stable diffusion的预训练模型权重进行初始化
Temp-Conv 和 Temp-Attn 的参数随机初始化
在这里插入图片描述
2D ResNet膨胀为3D ResNet
网络层中只有一部分是可训练的,以实现有效的训练,之前的工作,使用图像数据分别微调空间层和视频数据来训练时间层
本工作,以端到端的方式使用纯视频数据进行训练,因为图像数据被转换为伪视频,显示出与原始视频数据相似的时间一致性

视频数据

在这里插入图片描述
图像-文本数据通过随机缩放和平移来生成多个图像,并进一步组合成伪视频。
短视频的数据集(Kinetics-700),根据每个视频的分类标签给出合适的文本caption。
包含多个场景的长视频(VideoLT),segment-then-caption strategy,先分段在加字幕(Mini-GPT4)。

长视频生成

在这里插入图片描述
FNR:为了生成平滑的视频,迭代地重用初始噪声,但每次以相反的顺序。
PNS:为了减轻视频内容循环程度,
z T i , j = { z T i − 1 , N − j − 1 if  j < M α 1 + α 2 z T i − 1 , N − j − 1 + ϵ i , j otherwise , ϵ i , j ∼ N ( 0 , 1 1 + α 2 I ) , α ≥ 0 \mathbf{z}_T^{i,j}=\begin{cases}\mathbf{z}_T^{i-1,N-j-1}&\text{if}\text{ }j<M\\\frac{\alpha}{\sqrt{1+\alpha^2}}\mathbf{z}_T^{i-1,N-j-1}+\epsilon^{i,j}&\text{otherwise}\end{cases},\epsilon^{i,j}\sim\mathcal{N}(0,\frac{1}{1+\alpha^2}\mathbf{I}),\alpha\geq0 zTi,j={zTi1,Nj11+α2 αzTi1,Nj1+ϵi,jif j<Motherwise,ϵi,jN(0,1+α21I),α0
M帧为参考帧,在参考帧之外加额外的随机噪声, α \alpha α越小,随机噪声占的比率越大
DSG:提高帧之间的连续性,主要是视频clip之间的连续性, z 0 i , N − 1 \mathbf{z}_0^{i,N-1} z0i,N1 z 0 i + 1 , 0 \mathbf{z}_0^{i+1,0} z0i+1,0
z t − 1 i , j = { z t − 1 i − 1 , N − j − 1 if  t > ( 1 − β ) T + β T j M DDIM ( z t i , j , t ) otherwise , β ∈ [ 0 , 1 ] \mathbf{z}_{t-1}^{i,j}=\begin{cases}\mathbf{z}_{t-1}^{i-1,N-j-1}&\text{if}\text{ }t>(1-\beta)T+\frac{\beta Tj}{M}\\\text{DDIM}(\mathbf{z}_t^{i,j},t)&\text{otherwise}\end{cases},\quad\beta\in[0,1] zt1i,j={zt1i1,Nj1DDIM(zti,j,t)if t>(1β)T+MβTjotherwise,β[0,1]
前几帧重用上一视频clip的latent futures, β \beta β越小,重用程度越小

experiment

由静态图像的随机缩放和平移产生的伪视频有助于提高时间一致性但损害视觉外观

在这里插入图片描述
使用伪视频微调和不使用伪视频微调
与使用静态图像仅训练空间层相比,由静态图像的随机缩放和平移产生的伪视频有助于提高时间一致性但损害视觉外观。
在这里插入图片描述
对M(参考帧数量)、 α \alpha α β \beta β消融实验
越大,重用的越多,量化指标较高,视频循环严重

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 系统级芯片设计的重复使用方法手册是一个提供关于如何有效地开发系统级芯片的指南。它通常包含详细的方法、流程和技巧,帮助设计人员在系统级芯片设计过程中规划、分析、设计和验证。 重复使用方法手册的目的是帮助设计人员充分利用现有的设计资源和知识,以减少芯片设计的时间和成本。该手册提供了一套规范化的流程和工具,可以在设计过程中重复使用设计模块、IP核、验证脚本等。通过重复使用,设计人员可以加快设计过程,提高芯片的质量和可靠性。 重复使用方法手册通常包含以下内容: 1. 方法指南:包括设计组织和管理、设计流程管理、资源管理等方面的指导。 2. 设计流程:详细描述了系统级芯片设计的各个阶段和任务,提供了执行设计流程所需的工具和方法。 3. 设计模块库:包含了一系列已验证和可重复使用的设计模块,供设计人员在设计过程中选择和使用。 4. IP核库:提供了各种功能模块的IP核,设计人员可以直接使用这些IP核来加速设计过程。 5. 验证方法和工具:提供了验证脚本、仿真工具和验证方法等,方便设计人员验证设计的正确性和可靠性。 6. 最佳实践和案例研究:分享了一些成功的应用案例和最佳实践,帮助设计人员更好地理解和应用重复使用方法。 通过下载和使用重复使用方法手册,设计人员可以快速了解和掌握系统级芯片设计的最佳实践,提高设计效率和质量。重复使用方法手册是系统级芯片设计领域的重要参考资源,对于提升设计能力和水平具有重要意义。 ### 回答2: 系统级芯片设计的重用方法手册是系统集成电路设计的重要资源。该手册向设计工程师提供了重要指导,帮助他们有效地开发和设计系统级芯片。 首先,通过使用重用方法手册,设计工程师可以了解和掌握系统级芯片设计的基本原理和方法。手册详细介绍了系统级芯片设计的流程、方法和技术,包括需求分析、体系结构设计、功能设计、验证和测试等。设计工程师可以根据手册提供的指导,有条不紊地完成系统级芯片设计的各个阶段。 其次,重用方法手册还提供了一系列重要工具和技术,帮助设计工程师提高开发效率和质量。手册中可能包括各种设计模板、硬件描述语言示例代码和仿真工具等资源,这些资源可以帮助设计工程师快速开发具有高可重用性的系统级芯片。手册中还可能包括一些验证和测试方法,帮助设计工程师确保设计的正确性和稳定性。 另外,重用方法手册也可以帮助设计工程师提高设计的可维护性和可扩展性。手册可能包含一些设计规范和标准,帮助设计工程师确保设计的一致性和可靠性。通过重用方法手册中的指导,设计工程师可以借鉴和引入一些已有的设计模块和组件,减少设计的重复劳动,提高系统级芯片的开发效率和质量。 总的来说,系统级芯片设计的重用方法手册是设计工程师不可或缺的资源。它提供了设计原理、方法和工具,帮助设计工程师快速高效地开发和设计系统级芯片。手册还可以提高设计的可维护性和可扩展性,确保设计的可靠性和一致性。因此,下载并学习使用重用方法手册对于系统级芯片设计工程师来说是非常重要的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值