- 博客(29)
- 收藏
- 关注
原创 Latte: Latent Diffusion Transformer for Video Generation
Latte首先从输入的视频提取时空token,然后采取一系列Transformer Block在隐空间建模视频的分布。为了建模从视频中提取的大量token,从解耦输入视频的空间和时间维度的角度出发设计了四个高效变体。为了提高生成视频的质量,我们安排了最佳的Latte测试,通过严格的实验分析,包含视频裁剪 patch embedding,模型变体, timestep-class信息注入,时空位置embedding,和学习策略。
2024-07-15 20:51:07 1013
原创 [DIFF]RAVE: 使用扩散模型随机噪声清洗快速一致的视频编辑
RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing withDiffusion Models,CVPR2024
2024-07-03 22:17:10 766
原创 [DIFF]AT-EDM: 扩散模型的注意力驱动无训练效率增强
Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models,CVPR2024
2024-07-02 17:54:04 974
原创 [视频编辑]AVID: Any-Length Video Inpainting with Diffusion Model
AVID: 用扩散模型做任意长度视频的编辑。
2024-07-01 17:50:12 909
原创 [VFI]Perception-Oriented Video Frame Interpolation via Asymmetric Blending
基于非对称混合的面向感知的视频帧插值。PerVFI (Perception-oriented Video Frame Interpolation)
2024-06-30 20:45:10 1013
原创 CVPR2024 Diffusion Model
CVPR2024 Diffusion Model listhttps://cvpr.thecvf.com/Conferences/2024/AcceptedPaperspaper&codepaper&codepaperpaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaperpaper&codepaper&codepaper&codep
2024-06-20 19:02:49 1060
原创 [VFI]A Unified Pyramid Recurrent Network for Video Frame Interpolation
本文提出了一种新的用于帧插值的统一金字塔循环网络(UPR-Net)。在一个灵活的金字塔框架中,UPR-Net利用轻量级递归模块进行双向流估计和中间帧合成。在每个金字塔级别,它利用估计的双向流来生成帧合成的前扭曲表示;在金字塔层上,它支持光流和中间帧的迭代细化。
2024-06-19 16:37:31 881
原创 [VFI]Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolat
提出EMA-VFI。有效地提取帧间运动和外观信息对于视频帧插值(VFI)具有重要意义。以前的工作要么以混合的方式提取这两种类型的信息,要么为每种类型的信息设计单独的模块,这导致了表示的歧义和低效率。在本文中,我们提出了一个新的模块来显式地提取运动和外观信息。这种混合pipeline可以减轻帧间注意的计算复杂度,也可以保留详细的低层结构信息。
2024-06-17 17:52:08 1085
原创 [VFI&DIFF]Motion-aware Latent Diffusion Models for Video Frame Interpolation
提出MADIFF。对于VFI任务,相邻帧间的运动估计对避免运动模糊性起着至关重要的作用。然而,现有的VFI方法总是难以准确预测连续帧之间的运动信息,这种不精确的估计会导致帧模糊和视觉上不相干的插值帧。本文提出了一种新的扩散框架,运动感知潜在扩散模型(MADIFF),它是专门为VFI任务设计的。通过在整个扩散采样过程中结合条件相邻帧与目标插值帧之间的运动先验,MADIFF逐步细化中间结果,最终产生视觉上平滑和真实的结果。
2024-06-16 22:04:13 1111
原创 [VFI&DIFF]LDMVFI: Video Frame Interpolation with Latent Diffusion Models
现有的视频帧插值(VFI)的工作大多采用深度神经网络,这些网络通过最小化输出和地面真实帧之间的L1、L2或深度特征空间距离(例如VGG损失)来训练。然而,最近的研究表明,这些指标是感知VFI质量的较差指标。为了发展面向感知的VFI方法,在这项工作中,我们提出了基于潜在扩散模型的VFI,LDMVFI。这将从生成的角度来处理VFI问题,并将其表述为一个条件生成问题。作为使用潜在扩散模型来解决VFI问题的首要努力,我们严格地在现有的VFI文献中使用的常见测试集上对我们的方法进行了基准测试。
2024-06-12 22:01:09 922
原创 [VFI综述]Video Frame Interpolation: A Comprehensive Survey
视频帧插值(VFI)是计算机视觉(CV)领域中一个有趣而具有挑战性的问题,其目的是在两个连续的视频帧之间生成不存在的帧。近年来,许多基于光流、核或相位信息的算法被提出。在本文中,我们对VFI技术的最新进展进行了全面的回顾。首先介绍了VFI算法的开发历史、评估指标和公开可用的数据集。然后详细比较每种算法,指出它们的优缺点,并比较它们在不同显著数据集上的插值性能和速度。VFI技术在CV中不断受到关注,本调查还提到了一些基于VFI的视频处理应用,如慢动作生成、视频压缩、视频恢复等。
2024-06-11 16:37:22 996
原创 Xshell使用Docker搭建环境(连载中)
docker run -it --name 镜像名 --gpus all -v 本地路径:/workspace 端口号:22 docker的版本。docker images 查看所有的镜像(用镜像创造容器)docker ps 查看目前正在运行的容器。mkdir -p + 文件名 创建文件夹。docker ps -a查看所有容器。docker版本到dockerhub。进入workspace。pwd 查询本地路径。
2024-06-07 22:06:35 300
原创 常用代码调试(连载中)
常用代码调试将conda中虚拟环境添加到Jupyter 激活环境 conda activate+环境名 安装ipykernel pip install ipykernel 注册到内核 python -m ipykernel install --name+虚拟环境名 Python3一般在环境中安装Python3.6—3.8 conda中创建新环境 conda create -n 环境名 Python=版本 复制原有的环境 Conda env list 查看环境列表 Co.
2024-06-07 22:06:11 324
原创 图像处理中常用的小波变换
通过改变a,b参数,可以得到信号x(t)在时频平面上的值。Morlet小波变换通过窗口函数匹配滤波的方式,实现信号的多分辨率时频分析。c(0) = c(L-1) = 1,对k = 1,2,…,[(L-1)/2],有:c(k) = c(L-1-k),对k = 0,1,…因此,c(k)序列满足对称性以及moments vanishing条件,最终可构造出具有较高阶平滑性和对称性的Coif分析滤波器。,其中,k = 1,2,…,L,L是滤波器的长度。上述方程要求序列c(k)的第一项到第N项矩为0。
2023-10-20 20:35:05 3826 2
原创 粒计算深度学习学科交叉
从人类智能到机器实现模型——粒计算理论与方法paperDeep learning for fine-grained image analysis: A survey,CVPR2019(用于细粒度图像分析的深度学习:调查)paper细粒度图像识别普遍存在类内差异性大(large intra-class variance)和类间差异性小(small inter-class variance)的特点。Bird Species Categorization Using Pose Normalized Deep
2022-06-20 16:06:04 1302
原创 论文写作常用工具
论文写作常用工具1.overleaf ——网页版LaTeXhttps://cn.overleaf.com/project用前到b站搜教程Overleaf常用快捷键 https://zhuanlan.zhihu.com/p/3521373392.LateX在线公式编辑器https://www.latexlive.com/##3.LaTeX在线表格生成器https://www.tablesgenerator.com/latex_tables4.visio作图工具 (visio需要安装offic
2022-03-19 15:31:26 2657
原创 数据可视化——读取并绘制txt中实验数据图
一、导入相关包import pandas as pdimport randomimport matplotlib.pyplot as pltimport numpy as nppandas用以数据分析的库:导入CSV、JSON、SQL、Microsoft Excel等格式数据。进行数据清洗或数据加工。盘点Pandas的100个常用函数random:返回随机生成的[0,1)之间的实数。numpy用以处理数组:修改数组形状、翻转数组、修改数组维度、连接或分割数组、添加删除数组元素。Numpy
2022-03-03 19:31:35 1383
原创 Python入门教程
一、Python基础语法1.变量类型 int 整型 float 浮点数 string 字符串 print(type(a)) 查看a的数据类型2.基础数学运算 / 除 % 模量(求余) ** 求指数(求方) roung(a,6) 对a取整,保留6位数3.Python基础语法 输出 print(a) print(a,b,c) 缩进代替括号的包含关系 多个语句写到一行要用 ;分隔 不必要运行的代码前加 # 跳过4.Python中常用的数据结构 (1)list 列表 l=[
2021-10-07 16:40:22 322
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人