阿男官官-CSDN博客

原创苏剑林“闭门造车”之多模态思路浅谈思考

原文来自科学空间苏剑林多模态思路浅谈，学习后总结。

2025-02-18 21:39:10 430

原创 Latte: Latent Diffusion Transformer for Video Generation

Latte首先从输入的视频提取时空token，然后采取一系列Transformer Block在隐空间建模视频的分布。为了建模从视频中提取的大量token，从解耦输入视频的空间和时间维度的角度出发设计了四个高效变体。为了提高生成视频的质量，我们安排了最佳的Latte测试，通过严格的实验分析，包含视频裁剪 patch embedding，模型变体， timestep-class信息注入，时空位置embedding，和学习策略。

2024-07-15 20:51:07 1117

原创用于视频生成的扩散模型

学习自。

2024-07-09 21:24:02 1421

原创实验代码结构介绍

提高模型复用性，让模型对应的配置更加清晰，代码书写条理。

2024-07-07 22:26:02 378

原创 [DIFF]RAVE: 使用扩散模型随机噪声清洗快速一致的视频编辑

RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing withDiffusion Models，CVPR2024

2024-07-03 22:17:10 807

原创 [DIFF]AT-EDM: 扩散模型的注意力驱动无训练效率增强

Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models，CVPR2024

2024-07-02 17:54:04 1104

原创 [视频编辑]AVID: Any-Length Video Inpainting with Diffusion Model

AVID: 用扩散模型做任意长度视频的编辑。

2024-07-01 17:50:12 972

原创 [VFI&DIFF]Video Interpolation with Diffusion Models

使用扩散模型的视频插帧（VIDIM）

2024-07-01 15:11:32 1028

原创 [VFI]Perception-Oriented Video Frame Interpolation via Asymmetric Blending

基于非对称混合的面向感知的视频帧插值。PerVFI (Perception-oriented Video Frame Interpolation)

2024-06-30 20:45:10 1075

原创 CVPR2024 Diffusion Model

CVPR2024 Diffusion Model listhttps://cvpr.thecvf.com/Conferences/2024/AcceptedPaperspaper&codepaper&codepaperpaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaper&codepaperpaper&codepaper&codepaper&codep

2024-06-20 19:02:49 1375

原创 [VFI]A Unified Pyramid Recurrent Network for Video Frame Interpolation

本文提出了一种新的用于帧插值的统一金字塔循环网络（UPR-Net）。在一个灵活的金字塔框架中，UPR-Net利用轻量级递归模块进行双向流估计和中间帧合成。在每个金字塔级别，它利用估计的双向流来生成帧合成的前扭曲表示；在金字塔层上，它支持光流和中间帧的迭代细化。

2024-06-19 16:37:31 948

原创 [VFI]Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolat

提出EMA-VFI。有效地提取帧间运动和外观信息对于视频帧插值（VFI）具有重要意义。以前的工作要么以混合的方式提取这两种类型的信息，要么为每种类型的信息设计单独的模块，这导致了表示的歧义和低效率。在本文中，我们提出了一个新的模块来显式地提取运动和外观信息。这种混合pipeline可以减轻帧间注意的计算复杂度，也可以保留详细的低层结构信息。

2024-06-17 17:52:08 1168

原创 [VFI&DIFF]Motion-aware Latent Diffusion Models for Video Frame Interpolation

提出MADIFF。对于VFI任务，相邻帧间的运动估计对避免运动模糊性起着至关重要的作用。然而，现有的VFI方法总是难以准确预测连续帧之间的运动信息，这种不精确的估计会导致帧模糊和视觉上不相干的插值帧。本文提出了一种新的扩散框架，运动感知潜在扩散模型（MADIFF），它是专门为VFI任务设计的。通过在整个扩散采样过程中结合条件相邻帧与目标插值帧之间的运动先验，MADIFF逐步细化中间结果，最终产生视觉上平滑和真实的结果。

2024-06-16 22:04:13 1191

原创 [VFI&DIFF]LDMVFI: Video Frame Interpolation with Latent Diffusion Models

现有的视频帧插值（VFI）的工作大多采用深度神经网络，这些网络通过最小化输出和地面真实帧之间的L1、L2或深度特征空间距离（例如VGG损失）来训练。然而，最近的研究表明，这些指标是感知VFI质量的较差指标。为了发展面向感知的VFI方法，在这项工作中，我们提出了基于潜在扩散模型的VFI，LDMVFI。这将从生成的角度来处理VFI问题，并将其表述为一个条件生成问题。作为使用潜在扩散模型来解决VFI问题的首要努力，我们严格地在现有的VFI文献中使用的常见测试集上对我们的方法进行了基准测试。

2024-06-12 22:01:09 1024

原创 Diffusion Model代码从零搭建（1）

Diffusion model的算法实现

2024-06-11 19:16:22 590

原创 [VFI综述]Video Frame Interpolation: A Comprehensive Survey

视频帧插值（VFI）是计算机视觉（CV）领域中一个有趣而具有挑战性的问题，其目的是在两个连续的视频帧之间生成不存在的帧。近年来，许多基于光流、核或相位信息的算法被提出。在本文中，我们对VFI技术的最新进展进行了全面的回顾。首先介绍了VFI算法的开发历史、评估指标和公开可用的数据集。然后详细比较每种算法，指出它们的优缺点，并比较它们在不同显著数据集上的插值性能和速度。VFI技术在CV中不断受到关注，本调查还提到了一些基于VFI的视频处理应用，如慢动作生成、视频压缩、视频恢复等。

2024-06-11 16:37:22 1692

原创 Pycharm远程连接服务器

配置ssh运行配置配置工具。

2024-06-07 22:07:29 174

原创 Xshell使用Docker搭建环境（连载中）

docker run -it --name 镜像名 --gpus all -v 本地路径:/workspace 端口号:22 docker的版本。docker images 查看所有的镜像（用镜像创造容器）docker ps 查看目前正在运行的容器。mkdir -p + 文件名创建文件夹。docker ps -a查看所有容器。docker版本到dockerhub。进入workspace。pwd 查询本地路径。

2024-06-07 22:06:35 371

原创常用代码调试（连载中）

常用代码调试将conda中虚拟环境添加到Jupyter 激活环境 conda activate+环境名安装ipykernel pip install ipykernel 注册到内核 python -m ipykernel install --name+虚拟环境名 Python3一般在环境中安装Python3.6—3.8 conda中创建新环境 conda create -n 环境名 Python=版本复制原有的环境 Conda env list 查看环境列表 Co.

2024-06-07 22:06:11 337

原创 Xshell配置并远程连接Linux服务器（连载中）

ping+IP地址检查服务器，如下正常工作。

2024-06-07 12:06:27 244

原创 Detection Transformer (DETR)（持续更新）

持续更新DETR系列论文

2023-10-26 17:20:55 1019

原创图像处理中常用的小波变换

通过改变a,b参数,可以得到信号x(t)在时频平面上的值。Morlet小波变换通过窗口函数匹配滤波的方式,实现信号的多分辨率时频分析。c(0) = c(L-1) = 1，对k = 1,2,…,[(L-1)/2],有:c(k) = c(L-1-k)，对k = 0,1,…因此,c(k)序列满足对称性以及moments vanishing条件,最终可构造出具有较高阶平滑性和对称性的Coif分析滤波器。，其中，k = 1,2,…,L，L是滤波器的长度。上述方程要求序列c(k)的第一项到第N项矩为0。

2023-10-20 20:35:05 4567 2

原创 CV顶会论文Accepted papers

cv顶会接受论文网址

2023-07-16 17:11:23 513 1

原创 Review Comments

CV审稿话术

2022-11-12 15:44:51 440

原创期刊投稿流程

Springer，Elsevier投稿指南

2022-10-22 21:50:39 2701 2

原创粒计算深度学习学科交叉

从人类智能到机器实现模型——粒计算理论与方法paperDeep learning for fine-grained image analysis: A survey，CVPR2019（用于细粒度图像分析的深度学习：调查）paper细粒度图像识别普遍存在类内差异性大（large intra-class variance）和类间差异性小（small inter-class variance）的特点。Bird Species Categorization Using Pose Normalized Deep

2022-06-20 16:06:04 1374

weixin_41905577的博客