Diffusion Models与深度学习
该专栏为热销专栏榜 第46名
文章平均质量分 89
专注探索Diffusion Models,持续更新分享最前沿技术。博主在扩散模型领域发表过多篇顶会,本专栏已更新超过100篇博客,全网扩散模型专栏订阅量第一。
沉迷单车的追风少年
CSDN博客专家,CSDN商业化专家,官方内容合作伙伴,官方认证“人工智能领域优质创作者”,入选2023年中国开发者影响力年度榜单。
代表专栏《Diffusion Models与深度学习》、《手把手写深度学习》、《深度学习-计算机视觉》、《手把手写C++服务器》等。
展开
-
Diffusion Models视频生成-博客汇总
Diffusion Models视频生成-博客汇总原创 2023-10-28 12:44:08 · 2853 阅读 · 31 评论 -
Diffusion models代码解读:入门与实战
Diffusion models代码解读:系列文章汇总导航原创 2022-09-24 12:08:13 · 12392 阅读 · 63 评论 -
Diffusion Models专栏文章汇总:入门与实战
《Diffusion Models与深度学习》专栏文章导航原创 2022-02-21 21:55:40 · 31951 阅读 · 43 评论 -
代码解读:使用Stable Diffusion完成相似图像生成任务
作为内容生产重要的一部分,生成相似图像是一项有意义的工作,例如很多内容创作分享平台单纯依赖用户贡献的图片已经不够了,最省力的方法就是利用已有的图片生成相似的图片作为补充。这篇博客详细解读基于Stable Diffusion生成相似图片的原理和代码。原创 2024-04-11 19:58:46 · 553 阅读 · 6 评论 -
详细解读开源版Sora视频生成模型Latte
OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目,上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte,堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte,并从中窥探Sora的神秘面纱。原创 2024-03-24 07:45:00 · 958 阅读 · 2 评论 -
CVPR 2024中有哪些值得关注的视频生成和视频编辑方向的论文?
轰轰烈烈的CVPR 2024所有accept paper已经全部公开,随着Sora的爆火,视频生成和视频编辑是目前计算机视觉最火热的方向,受到了很多人的关注。这篇博客就整理盘点一下有哪些值得关注的视频生成和视频编辑方向的论文?值得做这个方向的小伙伴收藏学习。原创 2024-03-21 10:28:20 · 1053 阅读 · 8 评论 -
深度解读:如何解决Image-to-Video模型视频生成模糊的问题?
目前Image-to-Video的视频生成模型,图片一般会经过VAE Encoder和Image precessor,导致图片中的信息会受到较大损失,生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码,讲解如何解决Image-to-Video模型视频生成模糊的问题。原创 2024-03-18 11:20:21 · 1080 阅读 · 22 评论 -
解读电影级视频生成模型 MovieFactory
MovieFactory是第一个全自动电影生成模型,可以根据用户输入的文本信息自动扩写剧本,并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》原创 2024-03-07 14:06:57 · 1007 阅读 · 6 评论 -
Diffusion Models/Score-based Generative Models背后的深度学习原理(6):噪声对比估计
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然、伪似然、噪声对比估计等方面,总结一些经典的知识点,供读者参考。原创 2024-03-04 08:30:00 · 1036 阅读 · 4 评论 -
Diffusion Models/Score-based Generative Models背后的深度学习原理(5):伪似然和蒙特卡洛近似配分函数
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然、伪似然等方面,总结一些经典的知识点,供读者参考。原创 2024-03-01 10:41:09 · 854 阅读 · 6 评论 -
Diffusion Models/Score-based Generative Models背后的深度学习原理(4):随机最大似然和对比散度
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然等方面,总结一些经典的知识点,供读者参考。原创 2024-02-27 16:35:07 · 862 阅读 · 8 评论 -
解读2023年最火的视频生成模型:AnimateDiff Animate Your Personalized Text-to-Image Diffusion Models
2023年已经悄然过完,是时候盖棺定论了。这一年视频生成取得了长足的发展,特别是下半年进入了成果井喷的阶段,谷歌、Meta、阿里等很多大厂都发布了自己的研究成果。但是AnimateDiff作为在SD WebUI中最火的视频生成插件,收到了最多的关注,当之无愧是2023年最火的视频生成模型,这篇博客就想洗解读一下《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》这篇论文。原创 2024-02-21 16:38:56 · 479 阅读 · 8 评论 -
解读OpenAI视频生成模型Sora背后的原理:Diffusion Transformer
OpenAI最近推出的视频生成模型Sora效果上实现了真正的遥遥领先,很多博主都介绍过Sora的效果,但是深入解读背后原理的博客却非常少。Sora的原理最主要的是核心模型主干《Scalable Diffusion Models with Transformers》和训练不同尺寸视频方法《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》。这篇博客详细解读Diffusion Transformer结构,原创 2024-02-18 11:46:37 · 2636 阅读 · 6 评论 -
代码解读:Stable Video Diffusion 中对运动程度的控制
在SVD中,对运动的控制可以分成对镜头运动的控制和对内容运动的控制,这篇博客详细通过代码讲解如何对内容运动的控制。原创 2024-02-15 11:26:19 · 587 阅读 · 2 评论 -
为什么说 2023 年是 AI 视频生成的突破年?2024 年的 AI 视频生成有哪些值得期待的地方?
2023年是AI 视频生成的突破年,AI视频已经达到GPT-2级别了。去年我们取得了长足的进步,但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来?原创 2024-02-12 10:40:26 · 1020 阅读 · 10 评论 -
详细解读上海人工智能实验室视频生成代表作PIA:Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image
今天是除夕夜,先祝读者们除夕快乐!上海人工智能实验室open-mmlab在开源AIGC领域推出过很多良心开源项目,在视频生成时代,open-mmlab推出了自己的代表作《PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models》,能够实现Text+Image-to-Video,并且能够支持很多个性化风格的生成。这篇博客就详细解读一下PIA背后的原理和实现代码。原创 2024-02-09 11:20:08 · 1369 阅读 · 15 评论 -
解读谷歌视频生成模型代表作:Lumiere A Space-Time Diffusion Model for Video Generation
前段时间谷歌发布了基于LLMs的视频生成模型VideoPoet,这种信仰Transformers的做法就很Google。大家都以为2024年视频生成会是LLMs和SD两条路线之争,但是谷歌很快就发布了基于SD的视频生成模型Lumiere,这波直接偷家了?这篇博客详细解读Lumiere的改进点和带给我们的启示。原创 2024-02-05 10:21:23 · 541 阅读 · 10 评论 -
解读2023年最火的视频生成模型 AnimateDiff Animate Your Personalized Text-to-Image Diffusion Models without
2023年已经悄然过完,是时候盖棺定论了。这一年视频生成取得了长足的发展,特别是下半年进入了成果井喷的阶段,谷歌、Meta、阿里等很多大厂都发布了自己的研究成果。但是AnimateDiff作为在SD WebUI中最火的视频生成插件,收到了最多的关注,当之无愧是2023年最火的视频生成模型,这篇博客就想洗解读一下《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》这篇论文。原创 2024-02-01 11:22:21 · 158 阅读 · 14 评论 -
详细解读腾讯视频生成代表作:VideoCrafter2 Overcoming Data Limitations for High-Quality Video Diffusion Models
现在国内各个互联网大厂在视频生成领域的竞争相当激烈,腾讯的代表作当属VideoCrafter系列了。从2022年的Make-A-Video开始,学术界对视频生成的共识是T2I模型提供内容生成能力,时间模块提供运动能力,视频生成的难点在于运动能力的学习。这一观点在AnimateDiff中达到顶峰。然而在VideoCrafter2在论文中通过大量的对比实验,证明了微调空间层的优越性。这篇博客详细介绍这篇腾讯视频生成的代表作。原创 2024-01-28 18:01:47 · 565 阅读 · 2 评论 -
如何对Diffusion Models进行模型量化?
模型量化作为常用的模型小型化技术,在大语言模型、搜广推模型上取得了巨大的成功,但是在Diffusion Models为代表的视觉生成模型上尚处于探索阶段。在CVPR2023、ICLR 2023、ICML 2023、ICCV 2023上新上架了不少关于量化Diffusion Models的论文,这篇博客就一并总结相关的技术,希望能对读者们有所启发。原创 2024-01-16 10:45:26 · 1146 阅读 · 3 评论 -
代码解读:如何微调Stable Video Diffusion?
Stable Video Diffusion是目前已开源的视频生成模型中效果最好的,微调Stable Diffusion图像模型的教程非常多,但是微调Stable Diffusion视频模型的教程几乎没有。这篇博客给出微调视频扩散模型的代码教程,希望能对读者们有所启发。原创 2024-01-13 14:46:44 · 816 阅读 · 4 评论 -
2024年AIGC趋势展望:视频生成的“百模大战”
可控视频生成的应用场景将远远多于可控图片生成,直观上感觉受到冲击最大的是短视频公司,比如最近爆火的生成小姐姐跳舞视频(通义千问-全民舞王),效果距离真人实拍差距已经不大了。2023年工业场景下落地最多应该是可控图像生成了,不少大厂专门成立了专门的智能创作部门,比较成功的有电商图创作、海报创作、家装图生成、用户发帖辅助创作、证件照生成、图片美化等,背后的技术大部分是lora/dreambooth/controlnet等,最核心护城河还是用于finetune的高质量数据。原创 2024-01-10 16:58:32 · 1723 阅读 · 8 评论 -
2024年Diffusion Models还有哪些方向值得研究(好发论文)?
笔者follow扩散模型的科研进展已经将近3年了,见证了diffusion从无人问津到炙手可热的过程。当下扩散模型还有哪些缺点?还有哪些需要改进的方向?还有哪些方向值得研究?还有哪些方向好发论文?不知不觉时间已经来到了2024年,一年前写的博客《2023年Diffusion Models还有哪些方向值得研究(好发论文)?》有些内容已经过时了,这篇博客大胆展望一下2024年扩散模型的发展方向。原创 2024-01-07 12:24:10 · 1710 阅读 · 11 评论 -
Stable Diffusion的结构要被淘汰了吗?详细解读谷歌最新大杀器VideoPoet
视频生成领域长期被Stable Diffusion统治,大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层,学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限,但是都没有对业界带来特别有影响力的工作。最近谷歌出手了,拿出了Decoder-Only结构视频生成模型,堪称王炸!华为曾经出过Decoder-Only的模型(还被群嘲过),但是事实逐渐证明这种能够把文本、音频、视频等各种模态通过编码成token原创 2023-12-27 07:45:00 · 1944 阅读 · 19 评论 -
解读Stable Video Diffusion:详细解读视频生成任务中的数据清理技术
Stable Video Diffusion已经开源一周多了,技术报告《Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets》对数据清洗的部分描述非常详细,虽然没有开源源代码,但是博主正在尝试复现其中的操作。这篇博客先梳理一下Stable Video Diffusion的数据清洗部分。原创 2023-12-09 11:41:29 · 2637 阅读 · 4 评论 -
Meta最新视频生成工具:emu video技术报告解读
去年Meta推出了make-a-video,过去了一年多仍然是视频生成领域的SOTA。最近Meta又推出了更强的视频生成模型EMU Video,刷新了多项指标。这篇博客解读一下背后的论文《EMU VIDEO: Factorizing Text-to-Video Generation by Explicit Image Conditioning》原创 2023-11-26 12:39:41 · 1258 阅读 · 2 评论 -
【CVPR 2022】解读 Controllable Animation of Fluid Elements in Still Images:光流法视频生成
用户输入箭头,就能让图像动起来,这是经典的Animating任务。CVPR 2022中的一篇经典论文《Controllable Animation of Fluid Elements in Still Images》使用光流法做这种image-to-video任务,很多做法值得借鉴,这篇博客详细这篇论文。原创 2023-12-12 10:34:02 · 713 阅读 · 4 评论 -
【CVPR 2023】解读LFDM:Conditional Image-to-Video Generation with Latent Flow Diffusion Models
LFDM通过流预测器分解latent和mask映射到flow域,大幅度降低了视频合成的成本,并且是为数不多的image-to-video的工作,很多做法非常值得借鉴,这篇博客重点讲解一下这篇文章《Conditional Image-to-Video Generation with Latent Flow Diffusion Models》。原创 2023-12-15 10:22:50 · 648 阅读 · 6 评论 -
ICLR 2024中Video Diffusion Models相关论文
最近ICLR 2024出分了,Video Diffusion Models没有想象中受欢迎(高分),不过看审稿人和作者们互喷是一件多么有趣的事情!今日娱乐活动达成。原创 2023-11-15 14:42:09 · 794 阅读 · 4 评论 -
解读DreamPose:基于Diffusion Models的模特视频生成
谷歌研究院联合英伟达提出了DreamPose,通过修改起点噪声融入姿态信息,并微调VAE-CLIP adapter注入图片信息,做到pose&image-to-video的效果。是少数扩散模型中image-to-video的工作,这篇博客详细解读一下这篇论文《DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion》。原创 2023-12-02 19:54:06 · 825 阅读 · 2 评论 -
解读vid2vid-zero:Zero-shot 视频编辑
论文《Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models》中首次提出了Zero-shot 视频编辑任务,开辟了一个新的领域。现在有越来越多的Zero-shot 视频编辑论文,乱花渐欲迷人眼,这篇博客先解读一下这篇开山论文。原创 2023-12-21 16:09:19 · 767 阅读 · 8 评论 -
代码解读:Zero-shot 视频生成任务 Text2Video-Zero
上一篇博客《【ICCV 2023 Oral】解读Text2Video-Zero:解锁 Zero-shot 视频生成任务》解读了这篇论文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》。这篇论文的创新点比较多,含金量很高,而且开源了代码。所以这篇博客结合代码再深入理解一下。原创 2023-11-13 10:02:01 · 2428 阅读 · 6 评论 -
【SIGGRAPH 2023】解读Rerender A Video:Zero-Shot 视频翻译任务
Video-to-Video是视频生成中非常火的任务,也是最有应用价值的方向。图形学顶会SIGGRAPH 2023有一篇经典论文《Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation》,其中关键帧翻译、跨帧约束等方法值得我们借鉴。这篇博客详细解读一下这篇论文。原创 2023-11-19 11:53:46 · 1177 阅读 · 2 评论 -
【ICCV 2023 Oral】解读Text2Video-Zero:解锁 Zero-shot 视频生成任务
上一篇博客讲了Sketching the Future,里面大部分的方法和思路都来自于Text2Video-Zero。Text2Video-Zero开辟了zero-shot视频生成任务,除此之外,用运动动力学和跨帧注意力机制有效解决时间连贯性问题;Text2Video-Zero结合ControlNet可以在条件文生图领域得到非常好的效果,还能用于视频编辑领域。是一篇非常经典的论文,值得深度探讨。原创 2023-11-06 07:45:00 · 887 阅读 · 4 评论 -
解读Sketching the Future (STF):零样本条件视频生成
基于草图的视频生成目前是一个基本无人探索过的领域,videocomposer做过一些简单的探索。Sketching the Future从零样本条件视频生成出发,出色的完成了这一任务。这篇博客就解读一下《Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models》。原创 2023-11-09 14:35:07 · 1067 阅读 · 2 评论 -
解读文生视频大模型ModelScopeT2V技术报告
ModelScopeT2V是17B的文生视频大模型,由阿里巴巴达摩院发布,且模型和代码完全开源。当中提出的多层时空机制和多帧训练法非常值得借鉴。这篇博客详细解读一下ModelScopeT2V背后的技术。原创 2023-11-03 07:45:00 · 1650 阅读 · 6 评论 -
解读电影级视频生成模型 MovieFactory
MovieFactory是第一个全自动电影生成模型,可以根据用户输入的文本信息自动扩写剧本,并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》原创 2024-03-07 10:35:02 · 241 阅读 · 4 评论 -
【NeurIPS 2023】多模态联合视频生成大模型CoDi
目前视频生成的大部分工作都是只能生成无声音的视频,距离真正可用的视频还有不小的差距。CoDi提出了一种并行多模态生成的大模型,可以同时生成带有音频的视频,距离真正的视频生成更近了一步。相信在不远的将来,可以AI生成的模型可以无缝平替抖音等平台的短视频。这篇博客详细解读一下这篇论文《Any-to-Any Generation via Composable Diffusion》。原创 2023-10-31 07:45:00 · 911 阅读 · 2 评论 -
解读VideoComposer:多模态融合视频生成
达摩院出品的VideoComposer,是Composer家族的重要成员,开辟了组合多种模态特征生成视频的先河。重要的是开源了推理代码和模型,利于后人研究。这篇博客详细解读一下VideoComposer论文原理。原创 2023-11-29 15:33:34 · 1036 阅读 · 4 评论 -
【CVPR 2023】解读VideoFusion:基于噪声共享机制的视频生成
达摩院开源的VideoFusion是为数不多同时开源模型和推理代码的视频生成工作,通过设计噪声分解机制有效提高视频的时空连贯性,在一些关键指标上远超GAN-based方法和2022年谷歌的VDM。更重要的是,Diffusers库以此为基础,写了关键的两个视频生成基础类,堪称行业标准。这篇博客就详细解读一下这篇经典的论文。原创 2023-11-22 07:30:00 · 603 阅读 · 2 评论