沉迷单车的追风少年

夫川竭而谷虚，丘夷而渊实。圣人已死，则大盗不起，天下平而无故矣。圣人不死，大盗不止。虽重圣人而治天下，则是重利盗跖也。

原创畅游Diffusion数字人(0)：专栏文章导航

畅游Diffusion数字人(0)：专栏文章导航

2024-11-26 19:27:04 789 2

原创 Diffusion Models视频生成-博客汇总

Diffusion Models视频生成-博客汇总

2023-10-28 12:44:08 4553 31

原创手把手写深度学习(0)：专栏文章导航

手把手写深度学习(0)：专栏文章导航

2023-09-27 18:40:27 1434 14

原创 Diffusion models代码解读：入门与实战

Diffusion models代码解读：系列文章汇总导航

2022-09-24 12:08:13 15965 63

原创 Diffusion Models专栏文章汇总：入门与实战

《DiffusionModels与深度学习》专栏文章导航

2022-02-21 21:55:40 38692 43

原创手把手写C++服务器(0)：专栏文章-汇总导航【持续更新】

手把手写C++服务器(1)：网络编程常见误区手把手写C++服务器(2)：C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3)：C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4)：Linux四大必备网络分析工具手把手写C++服务器(6)：编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8)：常用boost之program_options命令行参数解析

2021-07-28 11:58:34 4830 51

原创经典必刷LeetCode汇总

LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...

2020-04-12 15:04:05 4049 2

原创畅游Diffusion数字人(28)：InstantID原班人马提出个性化人物定制InstantCharacter

InstantX实验室又推出大作啦，这次是InstantID的原作者联合腾讯混元提出了个性化人物定制的论文《InstantCharacter：Personalize Any Characters with a Scalable Diffusion Transformer Framework》。这个任务比ID保持难度大，更具有挑战性。这篇博客详细解读一下InstantCharacter的原理。

2025-04-25 15:08:22 614

原创 ValueError: Expected more than 1 value per channel when training, got input size torch.Size([1, 512]

在 PyTorch 中，批归一化（Batch Normalization，简称 BatchNorm）层在不同模式下（训练模式和测试模式）会有不同的行为。含有nn.BatchNorm1d(512) 网络的训练和测试。，并使用这些统计量来归一化输入数据。在训练模式下，批归一化层会。计算均值和方差，而是使用。在测试模式下，批归一化层。

2025-04-18 08:30:00 638

原创畅游Diffusion数字人(27)：解读字节跳动提出主题定制视频生成技术Phantom

主题定制视频生成，特别是zero-shot主题定制视频生成，一直是当前领域的一个难点，之前的方法效果很差。字节跳动提出了一个技术主题定制视频生成技术Phantom，效果相比于之前的技术进步非常显著。这篇博客详细解读一下这一工作。

2025-04-17 09:00:00 552

原创畅游Diffusion数字人(26)：腾讯音频驱动数字人技术Sonic

之前绝大多数Diffusion数字人都是基于AnimateDiff基础模型的，基于SVD基础模型的非常少。最近腾讯发布了基于SVD的数字人技术Sonic，效果非常好，甚至比基于CogVideox的Hallo3的还要惊艳，值得深入研究。

2025-04-16 08:45:00 497

原创畅游Diffusion数字人(25)：长时间高分辨率音频驱动数字人技术Hallo2

时至今日，以长时间和高分辨率为卖点的数字人技术依旧很少。这篇博客解读一篇经典的论文，也是Hallo系列的力作之一Hallo2: Long-Duration and High-Resolution Audio-driven Portrait Image Animation。

2025-04-15 09:45:00 343

原创代码解读：详细解读Diffusion ID保持生成经典工作InstantID

InstantID是ID保持生成的经典工作，后续大量图片/视频ID保持的工作都是基于这个工作完成的。这篇博客从代码出发，并结合原理，详细解读一下InstantID的代码。

2025-04-14 09:30:00 145

原创 AIGC算法工程师-面试八股文-2025年版本-算法八股文/工程八股文/开放式问题

两年前整理了《AIGC算法工程师面试八股文》，全网一共有100w读者看过，收到了很多小伙伴的催更。Diffusion的技术发展非常快，博主特意整理了最近两年最新的八股文，内容非常全面，涵盖算法八股文/工程八股文/开放式问题三个大类，希望能为求职的读者们带来帮助。

2025-04-14 00:39:15 779

原创畅游Diffusion数字人(24)：基于CogVideoX的表情驱动视频生成技术SkyReels-A1

用传统的3DMM方法做表情驱动局限性非常大，现有的方法仍然会遇到身份失真、背景不稳定和不切实际的面部动态等问题，特别是在纯头部动画场景中，并且不同的身体比例通常会导致视觉不一致或不自然的关节。这篇博客介绍使用CogVideoX作为基础模型的唯一表情驱动生成的工作SkyReels-A1，能够完美解决之前3DMM的问题。

2025-04-13 10:00:00 779

原创畅游Diffusion数字人(23)：字节最新表情+动作模仿视频生成DreamActor-M1

之前有很多动作模仿或者表情模仿的工作，但是如果要在实际使用中进行电影级的复刻工作，仅仅表情或动作模仿还不够，需要表情和动作一起模仿。最近字节跳动提出了一个表情+动作模仿视频生成DreamActor-M1。

2025-04-12 17:13:11 654

原创畅游Diffusion数字人(23)：字节最新表情+动作模仿视频生成DreamActor-M1

2025-04-12 16:31:05 220

原创畅游Diffusion数字人(22)：CVPR2025解读首个基于DiT的数字人Hallo3

之前介绍过很多基于Unet的数字人工作，这些工作受限于基模的能力，在人物的动态性和生动性上非常有限。这篇博客介绍Hallo3，这是第一个基于DiT的数字人工作。

2025-04-09 11:16:00 401

原创畅游Diffusion数字人(21)：基于Wan2.1的音频驱动数字人FantasyTalking

AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具，如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型，虽然效果不错，但是收费昂贵。而开源解决方案，如Hallo3、Sonic，效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作，相比之前的开源方案在效果上进步显著。

2025-04-08 20:00:38 783

原创畅游Diffusion数字人(20)：FLAME代码解读与实现

之前的博客《畅游Diffusion数字人(17)：更强大的人脸和表情表达方法 FLAME：Learning a model of facial shape and expression》讲解了FLAME的原理，这篇博客主要讲解一下FLAME的代码实现。

2025-03-11 11:54:53 589 1

原创 from psbody.mesh import MeshModuleNotFoundError: No module named ‘psbody‘

DiffposeTalk复现。

2025-03-08 16:52:49 325

原创畅游Diffusion数字人(19)：NIPS 2024 Oral实时音频驱动数字人 VASA-1

今天要介绍微软亚洲研究院的一篇NIPS 2024论文，在公开的rebuttle阶段宣布即将开源模型，时至今日依然没有开源引发热议。今天笔者就详细解读一下这篇论文，和读者们一起学习一下。

2025-03-08 09:30:00 337

原创畅游Diffusion数字人(18)：使用Diffusion Models生成FLAME数字人DiffPoseTalk

上一篇博客《畅游Diffusion数字人(17)：更强大的人脸和表情表达方法 FLAME：Learning a model of facial shape and expression》讲了如何FLAME用来表达人脸和表情的优势，这篇博客介绍一下如何用Diffusion Models生成FLAME数字人。

2025-03-07 09:30:00 333

原创畅游Diffusion数字人(17)：更强大的人脸和表情表达方法 FLAME：Learning a model of facial shape and expression

FLAME（Faces Learned with an Articulated Model and Expressions）是一种用于生成和模拟三维人脸形状及表情的参数化模型。他的表达准确和便捷，以至于时至今日依旧流行。这篇博客从论文和代码学习一下FLAME。

2025-03-06 10:15:00 2210

原创如何在服务器上并行化快速下载VFHQ数据集？A High-Quality Dataset and Benchmark for Video Face Super Resolution

虽然VFHQ是一个2022年的工作，但是数据集的质量非常高，导致三年过去了还是非常好用。那时候huggingface还没有流行，所以并没有托管到huggingface上，导致现在非常难快速下载。这篇博客提供一种并行化快速下载的方法，能够快速下载这个超大数据集。

2025-03-05 15:07:21 228 2

原创如何在无图形化界面的服务器上下载百度网盘的超大文件(10GB以上)？

登录百度网盘账号进入特定的文件夹下载完整教程

2025-03-04 20:23:58 350

原创原理和代码解读：音频驱动数字人经典项目AniPortrait

现在基于Diffusion的音频驱动数字人的工作有很多，其效果也是各有千秋。这篇博客解读一篇经典的工作AniPortrait，搞懂这篇经典之作，对于理解其他数字人的工作有很多好处。

2025-03-01 11:46:49 562

原创原理和代码解读：通义万相 WanX 2.1 视频生成模型

昨晚通义万相 WanX 2.1开源了，在多个指标上超越了sora、可灵、runway、hunyuan等模型。但是生成类的任务不能仅仅只看指标，实际的效果怎样？WanX 2.1 的技术架构是怎样的？有哪些技术改进？如何从T2V改造成I2V的模型的？这篇博客从原理和代码上详细解读这些问题。

2025-02-26 15:19:27 1221

原创手把手写深度学习(33)：从视频中提取人脸的landmarks并可视化

训练数字人或人脸识别检测相关的模型经常要使用人脸的landmarks。这篇博客讲解如何从视频中提取人脸的landmarks并可视化。

2025-02-24 21:17:06 551

原创论文和代码解读：Training Free的FLUX图像编辑方法Stable Flow

图像编辑一直是显卡资源不充足的研究组首选的 Diffusion 研究方向，当然不仅仅是这个方向对资源的要求比较低，更多是因为用于图像编辑的大规模配对数据集实在很难获取。其实图像编辑可以泛化到很多low-level方向，如去噪、去雾、去雨等，是一个广义上的image-to-image任务。

2025-02-22 11:31:54 354

原创代码解读：如何将HunYuan T2V模型训练成I2V模型？

HunYuan T2V模型出来很久了，但是想要训练成I2V的模型还是有点难度。此外，还有很多预训练视频模型都是T2V的，可以借鉴本文的方法加入参考图作为条件，并严格保持视频的第一帧与Image一样。

2025-02-19 19:42:13 569 2

原创畅游Diffusion数字人(16)：由音乐驱动跳舞视频生成

从Pose到跳舞视频生成的工作非常多，但是还没有直接从音乐驱动生成的工作。最近字节跳动提出了MuseDance，无需复杂的动作引导输入（如姿势或深度序列），从而使不同专业水平的用户都能轻松进行灵活且富有创意的视频生成。

2025-02-10 10:48:17 604

原创 RF-Solver(Taming Rectified Flow for Inversion and Editing) 代码解读

之前在博客《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》中介绍了一种RF反演方法RF-Solver的原理，这篇博客从实战角度出发，详细解读其代码。

2025-02-06 09:00:00 539

原创畅游Diffusion数字人(15)：详细解读字节跳动最新论文——音频+姿态控制人类视频生成OmniHuman-1

昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文，效果非常炸裂，并且是基于最新的MM-DiT架构，今天博主详细解读一下这一技术。

2025-02-05 11:54:31 946

原创在Hunyuan Video上实现RF-Inversion

前面的博客《论文和代码解读：RF-Inversion 图像/视频编辑技术》，但是原始代码是基于FLUX和SD3实现的，这篇博客讲解一下如何在Hunyuan Video上实现RF-Inversion 。

2025-02-03 12:24:43 499 2

原创论文和代码解读：RF-Inversion 图像/视频编辑技术

Rectified Flow的反演和DDIM这些不太一样，上一篇博客中介绍了腾讯提出的一种方法《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》，主要就是用泰勒展开和一阶导数近似来分解反演公式。这篇博客介绍谷歌提出的方法RF-Inversion，这篇工作更有名，贡献度更高。

2025-02-01 10:45:00 696

原创基于Rectified Flow FLUX的图像编辑方法 RF-Solver

现在越来越多的开源模型是基于Rectified Flow，特别是FLUX和HunYuan Video，但是Rectified Flow inversion的性质和之前有所不同，这篇博客解读一下如何使用Rectified Flow对FLUX进行编辑。

2025-01-31 22:40:35 1129

原创视频外绘技术总结：Be-Your-Outpainter、Follow-Your-Canvas、M3DDM

视频Inpaint的技术很火，但是OutPaint却热度不高，这篇博客总结比较经典的几篇视频Outpaint技术。其实Outpaint在runway等工具上很火，可是学术界对此关注比较少，博主从这三年的顶会中找到了最具代表性的三篇论文解读。

2025-01-27 23:17:55 1636

原创论文解读：上海交大最新论文基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR

尽管扩散模型在图像生成和修复方面表现出色，但其在视频超分辨率中的应用面临时间闪烁问题，扩散模型的随机性会导致视频帧之间出现突然的过渡，产生时间上的闪烁伪影。这篇博客介绍一种基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR。

2025-01-21 10:50:48 602

原创畅游Diffusion数字人(14)：基于3D人体网格的语音驱动手势视频生成 ECCV 2024

根据语音输入生成与说话内容、情感和节奏相匹配的自然、流畅且逼真的手势视频。该技术在虚拟形象、虚拟现实、动画制作等领域具有重要应用价值。然而这方面的研究非常少，这篇博客解读一篇ECCV2024的最新论文。

2025-01-20 09:00:00 730

国内大厂-后台开发面经汇总(5万字).zip

2021-08-03

电子信息/通信/计算机专业保研资料汇总

针对电子信息类专业、通信工程类专业、计算机科学与技术类专业的保研资料汇总，资料内含有完整的院校简介、夏令营信息、个人介绍模板、教授推荐信模版、自荐信模版、面试攻略、各大院校面试经验、英文自我介绍、英文问答、心路历程等，共100余篇资料，是笔者去年准备夏令营面试时候收集的。

2021-05-28

中国大学生计算机设计大赛·国家级一等奖作品·资料汇总

中国大学生计算机设计大赛国家级一等奖作品，包括完整答辩视频、答辩PPT、万字经验总结、演示视频、作品源代码、作品海报介绍、详细教程等等

2021-05-19

ShapeNet数据集

ShapeNet是一个由对象的三维CAD模型表示的丰富注释的，大规模的形状存储库。ShapeNet包含来自多种语义类别的3D模型，并按照WordNet分类法组织它们。它是一组数据集，为每个3D模型提供许多语义标注，如一致的刚性对准、零件和双边对称平面、物理尺寸、关键字以及其他计划的标注。注释通过基于web的公共接口提供，以支持对象属性的数据可视化，促进数据驱动的几何分析，并为计算机图形学和视觉研究提供大规模定量基准。ShapeNet已经索引了超过300万个模型，其中22万个模型被分为3135个类别(WordNet synsets)。

2021-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

国内大厂-后台开发面经汇总(5万字).zip

电子信息/通信/计算机专业 保研资料汇总

中国大学生计算机设计大赛·国家级一等奖作品·资料汇总

ShapeNet数据集

西安电子科技大学-《数字图像处理》PPT课件全套

西安电子科技大学射频电路实验报告

西安电子科技大学-返校宣讲PPT

西安电子科技大学 数字图像处理 大作业源代码

西安电子科技大学 射频电路 全套课件

2020年全国大学生计算机能力挑战赛官方真题

北京邮电大学信通院和人工智能学院导师组介绍

西北工业大学 空气动力学 期末考试试卷

西安电子科技大学专属信纸底板.docx

2020年西安电子科技大学B测源代码.zip

Go语言TCP通信客户端和服务器端(包含代码和可执行程序)

西安电子科技大学《通信原理》期末试题.pdf

2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip

2019年西安电子科技大学《自动控制原理》期末试卷

Generative Adversarial nets鉴赏.pdf

2011年-2017年全国大学生电子综合测评所有仿真电路图大全

Webvid-10M 数据集-第四部分

Webvid-10M数据集 完整版-第一部分

Webvid-1M原始数据集完整版-第三部分

Webvid-1M原始数据集完整版-第二部分

数学专业考研复试资料：实变函数与泛函分析要点

数学专业 考研复试 面试真题汇总(2)

《常微分方程》考研考点精讲及思路解析

基于pluto的通信系统-发送接收端matlab代码-点对点通信

手写英文字母数据集【附使用方法】

2021年 华中师范大学 数学分析 考研真题

【期末考试答案】信息素养——学术研究的必修课

天文学-全部课件(全)

《教育知识与能力》中学教资教材

2021 842真题回忆整理

小学信息学竞赛-第2课

小学信息学课件-第1课信息学编程入门

普通话考试 高分通过秘籍指南

中医证素辨证挖掘与疾病的关系

2019年（下）全国教师资格证中学-科目二

2021年（上）全国中学教资资格证考试-科目二

空空如也

电子信息/通信/计算机专业保研资料汇总

西安电子科技大学数字图像处理大作业源代码

西安电子科技大学射频电路全套课件

西北工业大学空气动力学期末考试试卷

Webvid-10M数据集完整版-第一部分

数学专业考研复试面试真题汇总(2)

2021年华中师范大学数学分析考研真题

普通话考试高分通过秘籍指南