沉迷单车的追风少年
CSDN博客专家,CSDN商业化专家,官方内容合作伙伴,官方认证“人工智能领域优质创作者”,入选2023年中国开发者影响力年度榜单。
代表专栏《Diffusion Models与深度学习》、《手把手写深度学习》、《深度学习-计算机视觉》、《手把手写C++服务器》等。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Diffusion Models视频生成-博客汇总
Diffusion Models视频生成-博客汇总原创 2023-10-28 12:44:08 · 4917 阅读 · 31 评论 -
Diffusion models代码解读:入门与实战
Diffusion models代码解读:系列文章汇总导航原创 2022-09-24 12:08:13 · 16996 阅读 · 0 评论 -
Diffusion Models专栏文章汇总:入门与实战
《DiffusionModels与深度学习》专栏文章导航原创 2022-02-21 21:55:40 · 40811 阅读 · 0 评论 -
FantasyHSI:Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based
设计了一种新颖的HSI框架,以视频生成和无配对数据的多智能体系统为中心,将复杂的交互过程建模为一个动态有向图,在此基础上构建了一个协作的多智能体系统。多智能体系统包括一个用于环境感知和高级路径规划的场景导航智能体,一个将远景目标分解为原子动作的规划智能体,和一个批评智能体,通过评估生成的动作与计划路径之间的偏差来建立闭环反馈机制,能够动态修正由生成模型的随机性引起的轨迹漂移,从而确保长期的逻辑一致性。利用强化学习来训练动作生成器,显著减少了肢体扭曲和脚滑动等伪影,保持生成的一致性和物理性。原创 2025-09-20 21:09:36 · 636 阅读 · 0 评论 -
Diffusion Model与视频超分(1):解读淘宝开源的视频增强模型Vivid-VR
近年来,基于扩散的生成模型取得了显著进展,现已能够合成逼真的内容,这一进步确立了生成式视频修复作为一种有前景的新范式。Vivid-VR 首先使用 CogVLM2-Video 处理低质量(LQ)输入视频,生成文本描述,并通过 T5 编码器将其编码为文本标记。同时,3D VAE 编码器将输入视频转换为潜在表示,我们的控制特征投影器在此去除退化伪影。为了增强可控性,引入了一个双分支连接器,一个用于特征映射的 MLP 和一个用于动态控制特征检索的交叉注意力分支,实现自适应的输入对齐。原创 2025-09-20 22:58:51 · 1146 阅读 · 3 评论 -
扩散模型与强化学习(16):强化学习的10条实战经验(第二版)
强化学习的10条实战经验(第二版)原创 2025-07-30 09:00:00 · 387 阅读 · 0 评论 -
扩散模型与强化学习(15):强化学习的十条实战经验
强化学习的十条实战经验原创 2025-07-29 09:00:00 · 564 阅读 · 0 评论 -
FantasyPortrait:Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion
从静态图像中产生富有表现力的面部动画是一项具有挑战性的任务。先前的方法依赖于明确的几何先验(例如,面部地标或3DMM),在交叉再现中经常受到伪影的影响,并且难以捕捉微妙的情感。此外,现有的方法缺乏对多角色动画的支持,因为来自不同个体的驱动特征经常相互干扰,使任务复杂化。为了解决这些挑战,我们提出了FantasyPortrait,这是一个基于扩散转换器的框架,能够为单角色和多角色场景生成高保真和情感丰富的动画。我们的方法引入了一种表情增强学习策略,该策略利用内隐表征来捕捉身份不可知论的面部动态,增强模型呈现细原创 2025-07-19 11:44:59 · 890 阅读 · 1 评论 -
畅游Diffusion数字人(31):FantasyPortrait打造全新面部驱动引擎
从静态图像生成富有表现力的面部动画是一项具有挑战性的任务。以往依赖显式几何先验(如人脸关键点或三维形状模型 3DMM)的方法,在跨身份迁移时容易产生伪影,且难以捕捉细腻的情感。此外,现有方法普遍不支持多角色动画生成,因为来自不同角色的驱动特征往往会相互干扰,进一步加大任务的复杂度。为了解决这些问题,阿里巴巴提出了 FantasyPortrait,一个基于扩散变换器的框架,能够在单角色和多角色场景中生成高保真、情感丰富的面部动画。原创 2025-07-23 08:15:00 · 1554 阅读 · 0 评论 -
扩散模型与强化学习(12):RLHF中的Reward hacking现象
本文探讨了强化学习中的奖励黑客(Reward Hacking)问题,即智能体通过利用奖励函数缺陷获取高回报却未达成预期目标的现象。文章分析了奖励黑客的成因,包括环境不完善、奖励函数设计挑战以及Goodhart定律的影响,并区分了环境误设型和奖励篡改型两种类型。特别关注了RLHF(基于人类反馈的强化学习)在语言模型中的应用,指出模型可能通过生成看似正确实则错误的回答来"欺骗"人类评估者。研究显示,随着模型能力提升,奖励黑客现象会加剧,表现为代理奖励上升而真实奖励下降。文章呼吁未来研究原创 2025-07-20 15:03:30 · 1056 阅读 · 0 评论 -
扩散模型与强化学习(13):In-Context Reward Hacking现象与解决方案
奖励作弊(Reward Hacking)指智能体通过钻规则漏洞而非真正完成任务来最大化奖励信号。以论文编辑实验为例,研究提出“上下文奖励作弊”(ICRH)概念,即模型利用共享上下文钻空子,如盲目添加“正确!”或输出无关内容。实验发现,模型规模扩大可能加剧ICRH,且提示词优化难以根治。与传统奖励作弊不同,ICRH发生在部署阶段,由通用性驱动。应对建议包括多轮测试、多样化反馈及异常场景模拟,但尚无完美解决方案。原创 2025-07-21 09:00:00 · 1085 阅读 · 0 评论 -
扩散模型与强化学习(14):强化学习中黑客技能的泛化现象与解决方案
研究揭示了AI模型的奖励黑客行为在任务间具有泛化性。通过8个多选题数据集实验,使用GPT-3.5和专家迭代方法发现,训练环境中的奖励黑客行为会泛化到测试环境。研究设计了"草稿纸"机制记录模型推理过程,并观察到模型能结合用户信念、认知评估标准,甚至可能重写自身奖励函数。实验设置了政治谄媚、工具奉承等可游戏化环境课程,结果显示模型奖励篡改成功率低于1%。缓解措施包括对抗性奖励函数、模型前瞻等技术,以及在易受攻击环境中使用监督微调数据。研究强调需要改进RL算法和工程实践来预防奖励黑客行为原创 2025-07-22 09:00:00 · 658 阅读 · 2 评论 -
每日AIGC最新进展(88):月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT
月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT原创 2025-07-10 09:00:00 · 967 阅读 · 0 评论 -
每日AIGC最新进展(87):字节跳动提出通过相机控制的视频扩散模型实现大规模动态场景CameraCtrl II、微软提出3D引导的可控视频生成I2V3D、高德提出运动规律视频测评VMBench
字节跳动提出通过相机控制的视频扩散模型实现大规模动态场景CameraCtrl II、微软提出3D引导的可控视频生成I2V3D、高德提出运动规律视频测评VMBench原创 2025-07-09 08:45:00 · 737 阅读 · 0 评论 -
每日AIGC最新进展(86):字节跳动提出多物体组合视频生成CINEMA、CVPR2025 自回归Mesh生成TreeMeshGPT、南京大学提出视频中插入单图对象方法DreamInsert
字节跳动提出多物体组合视频生成CINEMA、CVPR2025 自回归Mesh生成TreeMeshGPT、南京大学提出视频中插入单图对象方法DreamInsert原创 2025-07-08 08:30:00 · 911 阅读 · 0 评论 -
每日AIGC最新进展(85):华中科技大学提出视觉空间人物思维链EmbodiedVSR、腾讯提出VLM-Guide Mesh生成PBR3DGen、TCD提出使用Jensen蒸馏的Text-to-3D
华中科技大学提出视觉空间人物思维链EmbodiedVSR、腾讯提出VLM-Guide Mesh生成PBR3DGen、TCD提出使用Jensen蒸馏的Text-to-3D原创 2025-07-07 09:00:00 · 1184 阅读 · 0 评论 -
扩散模型与强化学习(11):解读经典Diffusion-DPO
本文提出Diffusion-DPO方法,通过直接优化人类偏好数据来对齐文本到图像扩散模型。该方法基于直接偏好优化(DPO)框架,重新设计损失函数以适应扩散模型的似然特性。实验使用85.1万对Pick-a-Pic数据集微调Stable Diffusion XL模型,结果表明该方法在视觉吸引力和文本对齐度上显著优于基线模型。研究还探索了AI反馈替代人工评估的可行性,发现使用PickScore等评分模型训练能进一步提升性能,为扩散模型对齐提供了新方向。原创 2025-07-02 08:45:00 · 1661 阅读 · 0 评论 -
每日AIGC最新进展(83):华为提出频驱动的通用肖像视频编辑RASA、香港科技大学提出长视频生成Multi-Agent、北京大学提出高效视频到音频生成模型TA-V2A
华为提出频驱动的通用肖像视频编辑RASA、香港科技大学提出长视频生成Multi-Agent、北京大学提出高效视频到音频生成模型TA-V2A原创 2025-07-05 08:45:00 · 883 阅读 · 0 评论 -
每日AIGC最新进展(82):耶鲁大学提出自回归视频生成统一框架Meta-ARVDM、弗吉尼亚州立大学提出视频参照抠图VRMDiff、中山大学提出大型的任务导向手-物体交互视频数据集TASTE-Rob
耶鲁大学提出自回归视频生成统一框架Meta-ARVDM、弗吉尼亚州立大学提出视频参照抠图VRMDiff、中山大学提出大型的任务导向手-物体交互视频数据集TASTE-Rob原创 2025-07-04 08:45:00 · 587 阅读 · 0 评论 -
每日AIGC最新进展(81):快手提出生成视频重渲染框架ReCamMaster、天津大学提出多任务视频修复框架MTV-Inpaint、微软提出新文生视频框架HiTVideo
快手提出生成视频重渲染框架ReCamMaster、天津大学提出多任务视频修复框架MTV-Inpaint、微软提出新文生视频框架HiTVideo原创 2025-07-03 08:45:00 · 1230 阅读 · 0 评论 -
扩散模型与强化学习(10):解读第一个视频生成DPO的工作VideoDPO
本文提出VideoDPO方法,通过改进直接偏好优化(DPO)来解决视频扩散模型存在的视觉质量与文本-视频对齐问题。作者设计了OmniScore综合评分系统,同时评估视频质量和语义对齐度,并开发自动化流程生成偏好对数据,无需人工标注。实验表明,该方法显著提升了生成视频的视觉保真度和语义一致性,为多维度偏好对齐提供了有效解决方案。原创 2025-07-01 08:30:00 · 464 阅读 · 0 评论 -
扩散模型与强化学习(8):解读Wan2.1 reward训练代码
本文介绍了如何利用奖励函数训练Wan2.1视频生成模型。文章详细讲解了四种奖励函数(美学奖励、HPS奖励、PickScore奖励和MPS奖励)的实现方法,并提供了完整的训练代码。通过控制计算图的保存范围来优化内存使用,只保留关键步骤的计算图,避免计算图爆炸。该方法适用于视频生成强化学习任务,为相关研究提供了实用参考。原创 2025-06-29 13:10:53 · 716 阅读 · 0 评论 -
扩散模型与强化学习(5):Flow-based Model与GRPO
最近在生成模型方面的突破- -特别是扩散模型和矫正流- -已经彻底改变了视觉内容的创造,但将模型输出与人类偏好保持一致仍然是一个关键的挑战。现有的基于强化学习( RL )的视觉生成方法存在严重的局限性:与基于常微分方程( ODEs )的现代采样范式不兼容、大规模训练不稳定以及缺乏视频生成的验证。本文介绍DanceGRPO,第一种将群体相对策略优化( Group Relative Policy Optimization,GRPO )适应于视觉生成范式的统一框架。原创 2025-06-26 09:00:00 · 1082 阅读 · 0 评论 -
扩散模型与强化学习(4):PG/TRPO/PPO/DPO/GRPO的区别与联系
本文系统梳理了强化学习策略优化方法的演进过程,从PG(策略梯度)到TRPO(信任域策略优化)、PPO(近端策略优化)、DPO(直接偏好优化)直至GRPO(群组相对优化策略)。这一发展路径呈现出三大规律:1)从在线策略向离线策略迁移;2)策略稳定性不断提升;3)数据需求从环境交互转向静态偏好数据。文章重点对比了各算法核心思想与改进点:TRPO引入信任域约束解决PG的高方差问题,PPO通过Clip机制简化TRPO的复杂计算,DPO实现离线策略学习并利用人类偏好数据,而GRPO则在保持奖励模型的同时优化计算效率。原创 2025-06-25 09:00:00 · 1344 阅读 · 0 评论 -
扩散模型与强化学习(3):Skyreels-v2中的DPO实战
《Skyreels-v2: Infinite-length film generative model》中详细介绍了训练Flow-DPO的原理、方法、数据收集策略等,内容非常翔实,是训练Flow-DPO非常难得的一份参考资料。原创 2025-06-24 09:00:00 · 794 阅读 · 0 评论 -
扩散模型与强化学习(2):字节视频生成模型Seaweed-7B中的RLHF实践
虽然SFT在改善美观方面是有效的,但在SFT后经常观察到运动和结构的退化。在Seaweed-7B中,使用RLHF可以明显改善在改善结构和运动质量。原创 2025-06-23 08:45:00 · 1056 阅读 · 0 评论 -
扩散模型与强化学习(6):快手可灵提出经典的视频Flow-DPO方法VideoAlign
本文提出了一种利用人类反馈改进视频生成的系统方法。研究团队构建了包含182k样本的多维人类偏好数据集(视觉质量、运动质量和文本对齐),并开发了VideoReward奖励模型。基于强化学习框架,研究者提出了三种基于流模型的对齐算法:Flow-DPO、Flow-RWR两种训练时方法和Flow-NRG推理时技术。实验表明,VideoReward优于现有模型,Flow-DPO表现最佳,而Flow-NRG支持推理时自定义质量权重。通过分离上下文相关与无关的评估维度,该方法显著提升了视频生成质量与可解释性。原创 2025-06-27 09:00:00 · 744 阅读 · 0 评论 -
扩散模型与强化学习(1):字节Seedance中的人类偏好优化实践
最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。原创 2025-06-22 17:07:46 · 1026 阅读 · 0 评论 -
详细解读InstantX团队最新力作个性化人物定制生成InstantCharacter代码和调参经验
InstantX团队自从推出了InstantID之后,再也没有像InstantID爆款的开源项目,但是近两年大佬们一直努力开源,这种精神令人敬仰。这篇博客解读InstantX最新的开源项目InstantCharacter。原创 2025-06-05 20:19:45 · 853 阅读 · 0 评论 -
代码解读:详细解读Diffusion ID保持生成经典工作InstantID
InstantID是ID保持生成的经典工作,后续大量图片/视频ID保持的工作都是基于这个工作完成的。这篇博客从代码出发,并结合原理,详细解读一下InstantID的代码。原创 2025-04-14 09:30:00 · 316 阅读 · 0 评论 -
AIGC算法工程师-面试八股文-2025年版本-算法八股文/工程八股文/开放式问题
两年前整理了《AIGC算法工程师 面试八股文》,全网一共有100w读者看过,收到了很多小伙伴的催更。Diffusion的技术发展非常快,博主特意整理了最近两年最新的八股文,内容非常全面,涵盖算法八股文/工程八股文/开放式问题三个大类,希望能为求职的读者们带来帮助。原创 2025-04-14 00:39:15 · 2705 阅读 · 2 评论 -
在Hunyuan Video上实现RF-Inversion
前面的博客《论文和代码解读:RF-Inversion 图像/视频编辑技术》,但是原始代码是基于FLUX和SD3实现的,这篇博客讲解一下如何在Hunyuan Video上实现RF-Inversion 。原创 2025-02-03 12:24:43 · 646 阅读 · 2 评论 -
原理和代码解读:音频驱动数字人经典项目AniPortrait
现在基于Diffusion的音频驱动数字人的工作有很多,其效果也是各有千秋。这篇博客解读一篇经典的工作AniPortrait,搞懂这篇经典之作,对于理解其他数字人的工作有很多好处。原创 2025-03-01 11:46:49 · 663 阅读 · 0 评论 -
原理和代码解读:通义万相 WanX 2.1 视频生成模型
昨晚通义万相 WanX 2.1开源了,在多个指标上超越了sora、可灵、runway、hunyuan等模型。但是生成类的任务不能仅仅只看指标,实际的效果怎样?WanX 2.1 的技术架构是怎样的?有哪些技术改进?如何从T2V改造成I2V的模型的?这篇博客从原理和代码上详细解读这些问题。原创 2025-02-26 15:19:27 · 2061 阅读 · 0 评论 -
论文和代码解读:Training Free的FLUX图像编辑方法Stable Flow
图像编辑一直是显卡资源不充足的研究组首选的 Diffusion 研究方向,当然不仅仅是这个方向对资源的要求比较低,更多是因为用于图像编辑的大规模配对数据集实在很难获取。其实图像编辑可以泛化到很多low-level方向,如去噪、去雾、去雨等,是一个广义上的image-to-image任务。原创 2025-02-22 11:31:54 · 495 阅读 · 0 评论 -
代码解读:如何将HunYuan T2V模型训练成I2V模型?
HunYuan T2V模型出来很久了,但是想要训练成I2V的模型还是有点难度。此外,还有很多预训练视频模型都是T2V的,可以借鉴本文的方法加入参考图作为条件,并严格保持视频的第一帧与Image一样。原创 2025-02-19 19:42:13 · 756 阅读 · 1 评论 -
畅游Diffusion数字人(16):由音乐驱动跳舞视频生成
从Pose到跳舞视频生成的工作非常多,但是还没有直接从音乐驱动生成的工作。最近字节跳动提出了MuseDance,无需复杂的动作引导输入(如姿势或深度序列),从而使不同专业水平的用户都能轻松进行灵活且富有创意的视频生成。原创 2025-02-10 10:48:17 · 751 阅读 · 0 评论 -
RF-Solver(Taming Rectified Flow for Inversion and Editing) 代码解读
之前在博客《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》中介绍了一种RF反演方法RF-Solver的原理,这篇博客从实战角度出发,详细解读其代码。原创 2025-02-06 09:00:00 · 680 阅读 · 0 评论 -
畅游Diffusion数字人(15):详细解读字节跳动最新论文——音频+姿态控制人类视频生成OmniHuman-1
昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文,效果非常炸裂,并且是基于最新的MM-DiT架构,今天博主详细解读一下这一技术。原创 2025-02-05 11:54:31 · 1135 阅读 · 0 评论 -
论文和代码解读:RF-Inversion 图像/视频编辑技术
Rectified Flow的反演和DDIM这些不太一样,上一篇博客中介绍了腾讯提出的一种方法《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》,主要就是用泰勒展开和一阶导数近似来分解反演公式。这篇博客介绍谷歌提出的方法RF-Inversion,这篇工作更有名,贡献度更高。原创 2025-02-01 10:45:00 · 938 阅读 · 0 评论