- 博客(987)
- 资源 (54)
- 收藏
- 关注

原创 手把手写C++服务器(0):专栏文章-汇总导航【持续更新】
手把手写C++服务器(1):网络编程常见误区手把手写C++服务器(2):C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3):C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4):Linux四大必备网络分析工具手把手写C++服务器(6):编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8):常用boost之program_options命令行参数解析
2021-07-28 11:58:34
4830
51

原创 经典必刷LeetCode汇总
LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...
2020-04-12 15:04:05
4049
2
原创 畅游Diffusion数字人(28):InstantID原班人马提出个性化人物定制InstantCharacter
InstantX实验室又推出大作啦,这次是InstantID的原作者联合腾讯混元提出了个性化人物定制的论文《InstantCharacter:Personalize Any Characters with a Scalable Diffusion Transformer Framework》。这个任务比ID保持难度大,更具有挑战性。这篇博客详细解读一下InstantCharacter的原理。
2025-04-25 15:08:22
614
原创 ValueError: Expected more than 1 value per channel when training, got input size torch.Size([1, 512]
在 PyTorch 中,批归一化(Batch Normalization,简称 BatchNorm)层在不同模式下(训练模式和测试模式)会有不同的行为。含有nn.BatchNorm1d(512) 网络的训练和测试。,并使用这些统计量来归一化输入数据。在训练模式下,批归一化层会。计算均值和方差,而是使用。在测试模式下,批归一化层。
2025-04-18 08:30:00
638
原创 畅游Diffusion数字人(27):解读字节跳动提出主题定制视频生成技术Phantom
主题定制视频生成,特别是zero-shot主题定制视频生成,一直是当前领域的一个难点,之前的方法效果很差。字节跳动提出了一个技术主题定制视频生成技术Phantom,效果相比于之前的技术进步非常显著。这篇博客详细解读一下这一工作。
2025-04-17 09:00:00
552
原创 畅游Diffusion数字人(26):腾讯音频驱动数字人技术Sonic
之前绝大多数Diffusion数字人都是基于AnimateDiff基础模型的,基于SVD基础模型的非常少。最近腾讯发布了基于SVD的数字人技术Sonic,效果非常好,甚至比基于CogVideox的Hallo3的还要惊艳,值得深入研究。
2025-04-16 08:45:00
497
原创 畅游Diffusion数字人(25):长时间高分辨率音频驱动数字人技术Hallo2
时至今日,以长时间和高分辨率为卖点的数字人技术依旧很少。这篇博客解读一篇经典的论文,也是Hallo系列的力作之一Hallo2: Long-Duration and High-Resolution Audio-driven Portrait Image Animation。
2025-04-15 09:45:00
343
原创 代码解读:详细解读Diffusion ID保持生成经典工作InstantID
InstantID是ID保持生成的经典工作,后续大量图片/视频ID保持的工作都是基于这个工作完成的。这篇博客从代码出发,并结合原理,详细解读一下InstantID的代码。
2025-04-14 09:30:00
145
原创 AIGC算法工程师-面试八股文-2025年版本-算法八股文/工程八股文/开放式问题
两年前整理了《AIGC算法工程师 面试八股文》,全网一共有100w读者看过,收到了很多小伙伴的催更。Diffusion的技术发展非常快,博主特意整理了最近两年最新的八股文,内容非常全面,涵盖算法八股文/工程八股文/开放式问题三个大类,希望能为求职的读者们带来帮助。
2025-04-14 00:39:15
779
原创 畅游Diffusion数字人(24):基于CogVideoX的表情驱动视频生成技术SkyReels-A1
用传统的3DMM方法做表情驱动局限性非常大,现有的方法仍然会遇到身份失真、背景不稳定和不切实际的面部动态等问题,特别是在纯头部动画场景中,并且不同的身体比例通常会导致视觉不一致或不自然的关节。这篇博客介绍使用CogVideoX作为基础模型的唯一表情驱动生成的工作SkyReels-A1,能够完美解决之前3DMM的问题。
2025-04-13 10:00:00
779
原创 畅游Diffusion数字人(23):字节最新表情+动作模仿视频生成DreamActor-M1
之前有很多动作模仿或者表情模仿的工作,但是如果要在实际使用中进行电影级的复刻工作,仅仅表情或动作模仿还不够,需要表情和动作一起模仿。最近字节跳动提出了一个表情+动作模仿视频生成DreamActor-M1。
2025-04-12 17:13:11
654
原创 畅游Diffusion数字人(23):字节最新表情+动作模仿视频生成DreamActor-M1
之前有很多动作模仿或者表情模仿的工作,但是如果要在实际使用中进行电影级的复刻工作,仅仅表情或动作模仿还不够,需要表情和动作一起模仿。最近字节跳动提出了一个表情+动作模仿视频生成DreamActor-M1。
2025-04-12 16:31:05
220
原创 畅游Diffusion数字人(22):CVPR2025解读首个基于DiT的数字人Hallo3
之前介绍过很多基于Unet的数字人工作,这些工作受限于基模的能力,在人物的动态性和生动性上非常有限。这篇博客介绍Hallo3,这是第一个基于DiT的数字人工作。
2025-04-09 11:16:00
401
原创 畅游Diffusion数字人(21):基于Wan2.1的音频驱动数字人FantasyTalking
AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具,如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型,虽然效果不错,但是收费昂贵。而开源解决方案,如Hallo3、Sonic,效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作,相比之前的开源方案在效果上进步显著。
2025-04-08 20:00:38
783
原创 畅游Diffusion数字人(20):FLAME代码解读与实现
之前的博客《畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression》讲解了FLAME的原理,这篇博客主要讲解一下FLAME的代码实现。
2025-03-11 11:54:53
589
1
原创 from psbody.mesh import MeshModuleNotFoundError: No module named ‘psbody‘
DiffposeTalk复现。
2025-03-08 16:52:49
325
原创 畅游Diffusion数字人(19):NIPS 2024 Oral实时音频驱动数字人 VASA-1
今天要介绍微软亚洲研究院的一篇NIPS 2024论文,在公开的rebuttle阶段宣布即将开源模型,时至今日依然没有开源引发热议。今天笔者就详细解读一下这篇论文,和读者们一起学习一下。
2025-03-08 09:30:00
337
原创 畅游Diffusion数字人(18):使用Diffusion Models生成FLAME数字人DiffPoseTalk
上一篇博客《畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression》讲了如何FLAME用来表达人脸和表情的优势,这篇博客介绍一下如何用Diffusion Models生成FLAME数字人。
2025-03-07 09:30:00
333
原创 畅游Diffusion数字人(17):更强大的人脸和表情表达方法 FLAME:Learning a model of facial shape and expression
FLAME(Faces Learned with an Articulated Model and Expressions)是一种用于生成和模拟三维人脸形状及表情的参数化模型。他的表达准确和便捷,以至于时至今日依旧流行。这篇博客从论文和代码学习一下FLAME。
2025-03-06 10:15:00
2210
原创 如何在服务器上并行化快速下载VFHQ数据集?A High-Quality Dataset and Benchmark for Video Face Super Resolution
虽然VFHQ是一个2022年的工作,但是数据集的质量非常高,导致三年过去了还是非常好用。那时候huggingface还没有流行,所以并没有托管到huggingface上,导致现在非常难快速下载。这篇博客提供一种并行化快速下载的方法,能够快速下载这个超大数据集。
2025-03-05 15:07:21
228
2
原创 原理和代码解读:音频驱动数字人经典项目AniPortrait
现在基于Diffusion的音频驱动数字人的工作有很多,其效果也是各有千秋。这篇博客解读一篇经典的工作AniPortrait,搞懂这篇经典之作,对于理解其他数字人的工作有很多好处。
2025-03-01 11:46:49
562
原创 原理和代码解读:通义万相 WanX 2.1 视频生成模型
昨晚通义万相 WanX 2.1开源了,在多个指标上超越了sora、可灵、runway、hunyuan等模型。但是生成类的任务不能仅仅只看指标,实际的效果怎样?WanX 2.1 的技术架构是怎样的?有哪些技术改进?如何从T2V改造成I2V的模型的?这篇博客从原理和代码上详细解读这些问题。
2025-02-26 15:19:27
1221
原创 手把手写深度学习(33):从视频中提取人脸的landmarks并可视化
训练数字人或人脸识别检测相关的模型经常要使用人脸的landmarks。这篇博客讲解如何从视频中提取人脸的landmarks并可视化。
2025-02-24 21:17:06
551
原创 论文和代码解读:Training Free的FLUX图像编辑方法Stable Flow
图像编辑一直是显卡资源不充足的研究组首选的 Diffusion 研究方向,当然不仅仅是这个方向对资源的要求比较低,更多是因为用于图像编辑的大规模配对数据集实在很难获取。其实图像编辑可以泛化到很多low-level方向,如去噪、去雾、去雨等,是一个广义上的image-to-image任务。
2025-02-22 11:31:54
354
原创 代码解读:如何将HunYuan T2V模型训练成I2V模型?
HunYuan T2V模型出来很久了,但是想要训练成I2V的模型还是有点难度。此外,还有很多预训练视频模型都是T2V的,可以借鉴本文的方法加入参考图作为条件,并严格保持视频的第一帧与Image一样。
2025-02-19 19:42:13
569
2
原创 畅游Diffusion数字人(16):由音乐驱动跳舞视频生成
从Pose到跳舞视频生成的工作非常多,但是还没有直接从音乐驱动生成的工作。最近字节跳动提出了MuseDance,无需复杂的动作引导输入(如姿势或深度序列),从而使不同专业水平的用户都能轻松进行灵活且富有创意的视频生成。
2025-02-10 10:48:17
604
原创 RF-Solver(Taming Rectified Flow for Inversion and Editing) 代码解读
之前在博客《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》中介绍了一种RF反演方法RF-Solver的原理,这篇博客从实战角度出发,详细解读其代码。
2025-02-06 09:00:00
539
原创 畅游Diffusion数字人(15):详细解读字节跳动最新论文——音频+姿态控制人类视频生成OmniHuman-1
昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文,效果非常炸裂,并且是基于最新的MM-DiT架构,今天博主详细解读一下这一技术。
2025-02-05 11:54:31
946
原创 在Hunyuan Video上实现RF-Inversion
前面的博客《论文和代码解读:RF-Inversion 图像/视频编辑技术》,但是原始代码是基于FLUX和SD3实现的,这篇博客讲解一下如何在Hunyuan Video上实现RF-Inversion 。
2025-02-03 12:24:43
499
2
原创 论文和代码解读:RF-Inversion 图像/视频编辑技术
Rectified Flow的反演和DDIM这些不太一样,上一篇博客中介绍了腾讯提出的一种方法《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》,主要就是用泰勒展开和一阶导数近似来分解反演公式。这篇博客介绍谷歌提出的方法RF-Inversion,这篇工作更有名,贡献度更高。
2025-02-01 10:45:00
696
原创 基于Rectified Flow FLUX的图像编辑方法 RF-Solver
现在越来越多的开源模型是基于Rectified Flow,特别是FLUX和HunYuan Video,但是Rectified Flow inversion的性质和之前有所不同,这篇博客解读一下如何使用Rectified Flow对FLUX进行编辑。
2025-01-31 22:40:35
1129
原创 视频外绘技术总结:Be-Your-Outpainter、Follow-Your-Canvas、M3DDM
视频Inpaint的技术很火,但是OutPaint却热度不高,这篇博客总结比较经典的几篇视频Outpaint技术。其实Outpaint在runway等工具上很火,可是学术界对此关注比较少,博主从这三年的顶会中找到了最具代表性的三篇论文解读。
2025-01-27 23:17:55
1636
原创 论文解读:上海交大最新论文基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR
尽管扩散模型在图像生成和修复方面表现出色,但其在视频超分辨率中的应用面临时间闪烁问题,扩散模型的随机性会导致视频帧之间出现突然的过渡,产生时间上的闪烁伪影。这篇博客介绍一种基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR。
2025-01-21 10:50:48
602
原创 畅游Diffusion数字人(14):基于3D人体网格的语音驱动手势视频生成 ECCV 2024
根据语音输入生成与说话内容、情感和节奏相匹配的自然、流畅且逼真的手势视频。该技术在虚拟形象、虚拟现实、动画制作等领域具有重要应用价值。然而这方面的研究非常少,这篇博客解读一篇ECCV2024的最新论文。
2025-01-20 09:00:00
730
电子信息/通信/计算机专业 保研资料汇总
2021-05-28
中国大学生计算机设计大赛·国家级一等奖作品·资料汇总
2021-05-19
ShapeNet数据集
2021-02-05
2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip
2020-01-08
2019年西安电子科技大学《自动控制原理》期末试卷
2020-01-08
Webvid-10M数据集 完整版-第一部分
2024-09-23
Webvid-1M原始数据集完整版-第二部分
2024-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人