沉迷单车的追风少年
CSDN博客专家,CSDN商业化专家,官方内容合作伙伴,官方认证“人工智能领域优质创作者”,入选2023年中国开发者影响力年度榜单。
代表专栏《Diffusion Models与深度学习》、《手把手写深度学习》、《深度学习-计算机视觉》、《手把手写C++服务器》等。
展开
-
Diffusion models代码解读:入门与实战
Diffusion models代码解读:系列文章汇总导航原创 2022-09-24 12:08:13 · 13782 阅读 · 63 评论 -
Diffusion Models专栏文章汇总:入门与实战
《Diffusion Models与深度学习》专栏文章导航原创 2022-02-21 21:55:40 · 34804 阅读 · 43 评论 -
AAAI Reproducibility Checklist Latex 模板
AAAI-25 Reproducibility Checklist - AAAIThis paper:Does this paper make theoretical contributions? (yes/no)If yes, please complete the list below.Does this paper rely on one or more datasets? (yes/no)If yes, please complete the list below.Does this paper i原创 2024-08-15 10:22:42 · 592 阅读 · 1 评论 -
【原创】下载RealEstate10K数据集原始视频的方法
目前互联网上能搜到下载RealEstate10K数据集原始视频的方法都已经不能用了,这篇博客介绍一种目前可用的下载RealEstate10K数据集原始视频的方法,并给出自动化的脚本代码。原创 2024-08-05 15:00:03 · 383 阅读 · 2 评论 -
代码实战:使用Stable Diffusion完成虚拟模特换衣任务
之前在博客《解读DreamPose:基于Diffusion Models的模特视频生成》中介绍了如何生成模特换衣的视频,在电商场景下得到了广泛的应用。由于视频生成的技术还不太成熟,但是模特换衣图片生成却非常成熟,这篇博客从代码角度讲解如何完成这一任务。原创 2024-05-23 14:18:08 · 1421 阅读 · 4 评论 -
每日AIGC最新进展(1):交互式可控3D生成、用于大词汇量3D生成的3D Diffusion Transformer、基于Dense Blob的Diffusion图像生成、腾讯文生图大模型
作为人类,我们渴望创造既具有自由意志又易于控制的媒体内容。由于生成技术的突出发展,我们现在可以轻松地利用2D扩散方法来合成由原始草图或指定的人体姿势控制的图像,甚至可以逐步编辑/重建局部区域并进行遮罩修补。然而,在3D建模任务中类似的工作流程仍然不可用,这是由于3D生成中控制性和效率的缺乏。在本文中,我们提出了一种新颖的可控交互式三维资产建模框架,名为Coin3D。原创 2024-05-16 20:35:21 · 472 阅读 · 2 评论 -
总结目前开源的视频生成/视频编辑大模型
随着Sora的爆火,视频生成和视频编辑受到了越来越多的关注。这篇博客总结一下目前开源的视频生成和视频编辑的大模型,并分析他们各自的优缺点,以及在自己进行科研任务或者工作中应该如何选用对应的开源模型,希望能给从事这一领域研究和使用的小伙伴们帮助。原创 2024-05-16 11:57:04 · 1277 阅读 · 2 评论 -
深度解读:如何解决Image-to-Video模型视频生成模糊的问题?
目前Image-to-Video的视频生成模型,图片一般会经过VAE Encoder和Image precessor,导致图片中的信息会受到较大损失,生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码,讲解如何解决Image-to-Video模型视频生成模糊的问题。原创 2024-03-18 11:20:21 · 1177 阅读 · 22 评论 -
代码讲解:如何把3D数据转换成旋转的视频?
这里以shapenet数据集为例,通过代码讲解如何把3D数据转换成旋转的视频?原创 2024-03-10 14:55:26 · 831 阅读 · 2 评论 -
Diffusion Models/Score-based Generative Models背后的深度学习原理(6):噪声对比估计
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然、伪似然、噪声对比估计等方面,总结一些经典的知识点,供读者参考。原创 2024-03-04 08:30:00 · 1120 阅读 · 4 评论 -
手把手写深度学习(8)——用LSTM生成手写英文文章
前言:本系列前文介绍了用GANs生成手写数字,生成手写数字的任务是一件非常简单、入门的事情,因为MNIST数据集提供的,像素点非常低,最后生成的效果也非常模糊。要知道,高分辨率的生成一直是深层生成问题中永恒的研究热点。而本讲将手写英文字母当做向量的表达方式,LSTM作为一个非常优秀的RNN网络,广泛用于时空序列的处理。本讲就是用LSTM来生成手写英文文章。目录LSTM基础知识数据集网络结构代码开始生成!参考:LSTM基础知识前文介绍了RNN,本文在RNN的基础上再介绍.原创 2021-12-05 16:22:19 · 612 阅读 · 7 评论 -
代码解读:Stable Video Diffusion 中对运动程度的控制
在SVD中,对运动的控制可以分成对镜头运动的控制和对内容运动的控制,这篇博客详细通过代码讲解如何对内容运动的控制。原创 2024-02-15 11:26:19 · 821 阅读 · 2 评论 -
视频生成的路线之争:基于LLMs 和 基于SD 的技术路线孰优孰劣?
在 AI 领域,近年来各个子领域都逐渐向 transformer 架构靠拢,只有视觉生成领域一直以 diffusion 结构作为主流方向,但是近年来谷歌、Meta、华为等大厂都在尝试使用基于LLMs的结构完成视觉生成任务。相比于趋于成熟的图像生成任务,视频生成任务是当下最火爆最具探索意义的方向。那么视频生成的最终路线还会由SD统治吗?基于LLMs的技术路线是否能颠覆基于SD的技术方案?这两种技术方案各自有哪些优点和缺点?原创 2024-01-19 10:57:03 · 753 阅读 · 2 评论 -
ICLR 2024中Video Diffusion Models相关论文
最近ICLR 2024出分了,Video Diffusion Models没有想象中受欢迎(高分),不过看审稿人和作者们互喷是一件多么有趣的事情!今日娱乐活动达成。原创 2023-11-15 14:42:09 · 896 阅读 · 4 评论 -
【NeurIPS 2023】多模态联合视频生成大模型CoDi
目前视频生成的大部分工作都是只能生成无声音的视频,距离真正可用的视频还有不小的差距。CoDi提出了一种并行多模态生成的大模型,可以同时生成带有音频的视频,距离真正的视频生成更近了一步。相信在不远的将来,可以AI生成的模型可以无缝平替抖音等平台的短视频。这篇博客详细解读一下这篇论文《Any-to-Any Generation via Composable Diffusion》。原创 2023-10-31 07:45:00 · 988 阅读 · 2 评论 -
【论文汇总】Diffusion Models视频生成/视频编辑/可控视频生成/跨模态视频生成
本文总结了Diffusion Models视频生成领域相关的工作,目前共收录142篇,持续更新中。原创 2023-12-05 09:58:53 · 1084 阅读 · 6 评论 -
Diffusion Models视频生成-博客汇总
Diffusion Models视频生成-博客汇总原创 2023-10-28 12:44:08 · 3551 阅读 · 31 评论 -
详细解读DALLE 3技术报告:Improving Image Generation with Better Captions
OpenAI是推动大模型创新的领头羊,最近发布的DALLE 3凭借着远超市面上其他图片生成模型的表现,再次火出圈。最近OpenAI官方发布了DALLE 3的技术报告《Improving Image Generation with Better Captions》。这篇博客详细解读这篇技术报告,揭示DALLE 3背后的秘密。原创 2023-10-21 22:32:53 · 1061 阅读 · 2 评论 -
手把手写深度学习(21):用PEFT LoRA微调Stable Diffusion
PEFT由Hugging Face荣誉出品,是现在微调大模型最常用的库之一。这篇博客首先介绍PEFT LoRA微调Stable Diffusion的原理,然后讲解代码,并整理出完整可运行的脚本,已在GitHub上开源。原创 2023-09-16 11:59:11 · 814 阅读 · 12 评论 -
如何从huggingface上下载大模型文件?
搜索自己想要的模型id,例如AI-ModelScope/stable-diffusion-v2-1就可以平替hugging face的stable-diffusion-v1-5,下载速度也很快!如果直接huggingface的api推理,会自动下载模型。你可以把 CompVis/stable-diffusion-v1-4 替换成自己要下载模型id就可以了。我们可以使用如下的命令。原创 2023-07-03 19:29:23 · 732 阅读 · 15 评论 -
Diffusers如何加载本地text-image配对数据集?(How to load local text-image datasets in Diffusers?)
做stable diffusion的人肯定绕不开diffuser,但是diffuser官方的教程里并没有教大家如何加载text-imge配对数据集,我在百度/谷歌搜索过,前三页都没有发现有发现这个问题现成的解决方案。这篇博客就和大家分享我是如何解决这个问题的。原创 2023-06-08 20:20:38 · 536 阅读 · 10 评论 -
Adapter Tuning:详细解读Parameter-Efficient Transfer Learning for NLP
大语言模型实在是太火了,各种技术日新月异,研究diffusion models的从LLMs中找一些研究灵感已经是基操了。当模型比较小的时候,微调全部参数还是可以的。但是现在的大预训练模型时代,微调所有参数不仅效果堪忧,对资源的消耗也非常恐怖,所以这就是做有效微调的初衷。为了研究清楚如何进行有效的大模型微调,我打算沿着Adapter Tuning——Prefix Tuning——Prompt Tuning——P-Tuning——lora的路线详细讲解一下,希望可以对做diffusion models的同学有所原创 2023-06-04 22:30:17 · 1522 阅读 · 17 评论 -
文心一言 VS ChatGPT,国产大模型和国外的差距有多大?
3月16号,百度正式发布了『文心一言』,这是国内公司第一次发布类ChatGPT的产品。大家一定非常好奇文心一言和chatgpt之间的差距有多大?国产大模型还有多少路可走?本文就全面测评这两款产品!原创 2023-03-23 10:38:59 · 6608 阅读 · 17 评论 -
《美团机器学习实践》读后感和一点思考
最近拜读了美团算法团队出品的《美团机器学习实践》,这本书写于2018年,一个大模型还没有标配的时代。这本书侧重于工业界的实践,能清楚地让我们了解到工业界和学术界对机器学习的关注方向上的差异,值得一读。因为我是重点做模型工程/模型部署方向的,所以重点关注这个方面,汲取美团技术团队的经验。原创 2023-04-29 07:45:00 · 2077 阅读 · 8 评论 -
讯飞星火 VS 文心一言:谁是中文大语言模型的TOP1?
在百度发布文心一言一个多月后,科大讯飞也发布了自己的大模型“讯飞星火大模型”。本篇博客就测评一下这两个在中文圈最受好评的大语言模型,顺便辅以ChatGPT为参考。大家一起来看看到底谁是中文大语言模型的TOP1?原创 2023-05-13 07:45:00 · 4268 阅读 · 16 评论 -
第三届计图人工智能挑战赛 热身赛题解
本赛道将在数字图片数据集 MNIST 上训练 Conditional GAN(Conditional generative adversarial nets)模型,通过输入一个随机向量 z 和额外的辅助信息 y (如类别标签),生成特定数字的图像。原创 2023-06-01 07:45:00 · 494 阅读 · 20 评论 -
深度学习的十条调参经验
法则一:调参、模型和数据1、调参是锦上添花的事2、模型3、数据4、哪些参数可以调?法则二:数据预处理、验证集和批处理1、数据预处理2、验证集3、批处理法则三:Learning rate和batch size法则四:损失函数法则五:Epoch number和early stopping:法则六:Optimizer、Weights initialization和Regularization1、Optimizer2、Weights initializatio原创 2023-05-19 11:02:49 · 1046 阅读 · 6 评论 -
如何定制属于自己的stable diffusion?Dreambooth原理详解和代码实战
今天是劳动节,先向广大劳动者们致敬!AIGC大模型(如stable diffusion models)的训练成本已经超过绝大多数人的承受范围,彻底沦为中大厂/科研大组的“御用品”,这也是大模型时代的必然趋势。如何利用已有的开源大模型,微调出属于自己的专有模型?如何定制化自己专属扩散模型?这些问题无疑让我们这些没有资源直接训练达模型的人感到兴奋!dreambooth这篇论文出现的非常早,去年就已经大火过。经过时间的沉淀,现在定制化自己的diffusion大模型基本只剩下Dreambooth、textual i原创 2023-05-01 07:45:00 · 2349 阅读 · 27 评论 -
《面向机器智能的TensorFlow实践》学习笔记和一点思考
借助TensorFlow API用代码描述的数据流图是每个TensorFlow程序的核心。毫不意外, 数据流图这种特殊类型的有向图正是用于定义计算结构的。在TensorFlow中, 数据流图本质上是一组链接在一起的函数, 每个函数都会将其输出传递给0个、 1个或更多位于这个级联链上的其他函数。按照这种方式, 用户可利用一些很小的、 为人们所充分理解的数学函数构造数据的复杂变换。下面来看一个比较简单的例子:上图展示了可完成基本加法运算的数据流图。原创 2023-05-16 14:11:01 · 775 阅读 · 14 评论 -
SketchKnitter: 基于扩散模型的矢量化草图生成
SketchKnitter,这是首个用 Diffusion Models 重建矢量化草图的工作。我们证明了矢量化草图生成可以被识别为笔画变形的逆转过程,这一能力是通过扩散模型建立的。SketchKnitter 学习真实人体草图的笔画点位置和笔状态的数据分布。对于给定的随机分散笔画点,草图生成成为基于变形的去噪过程,其中生成器在每个时间步纠正笔画点的位置以收敛于可识别的草图。一项关键创新是将可识别性嵌入逆时扩散过程。据观察,反转过程中的估计噪声与草图分类精度密切相关。因此,我们使用辅助循环神经网络来量化数原创 2023-04-26 11:30:40 · 649 阅读 · 14 评论 -
Diffusion Models从入门到放弃:必读的10篇经典论文
diffusion models是现在人工智能领域最火的方向之一,并引爆了AIGC方向,一大批创业公司随之诞生。笔者2021年6月开始研究diffusion,见证了扩散模型从无人问津到炙手可热的过程,这些篇经典论文我的专栏里都详细介绍过原理、复现过代码。这篇博客以时间发展顺序,串讲一下从入门到精(放)通(弃)的10篇必读的经典论文。原创 2023-01-08 13:53:57 · 5259 阅读 · 40 评论 -
【云原生】“0”代码时代——基于华为云ModelArts识别手绘草图
前言:人工智能是当今最火热的话题之一,不管是不是计算机行业的从业者,懂一点人工智能已经成为常识,但是人工智能的高数学门槛、高编程门槛让人望而却步。低代码时代已经悄然而止,部署自己的人工智能模型已经不再是程序员的专利,本文就利用华为云平台,不写一行代码,手把手教你部署自己的人工智能模型,利用人工智能模型识别草图。目录数据集准备——什么是手绘草图?准备数据——上传到华为云OBS上传文件夹新建输出空文件夹开启自动学习1、创建项目2、标注数据3、智能自动标注4、开始训练..原创 2022-01-12 22:49:16 · 2667 阅读 · 6 评论 -
由浅入深理解Latent Diffusion/Stable Diffusion(2):扩散生成模型的工作原理
关于如何使用stable diffusion的文章已经够多了,但是由浅入深探索stable diffusion models背后原理,如何在自己的科研中运用stable diffusion预训练模型的博客少之又少。本系列计划写5篇文章,和读者一起遨游diffusion models的世界!本文主要介绍扩散生成式模型的基本原理,stable diffusion models的前身latent diffusion models的基本原理。原创 2022-11-17 10:33:02 · 4423 阅读 · 6 评论 -
由浅入深理解latent diffusion/stable diffusion(1):写给初学者的图像生成入门课
关于如何使用stable diffusion的文章已经够多了,但是由浅入深探索stable diffusion models背后原理,如何在自己的科研中运用stable diffusion预训练模型的博客少之又少。本系列计划写5篇文章,和读者一起遨游diffusion models的世界!本文主要介绍图像生成的历史,研读经典,细数发展历程。原创 2022-11-14 11:09:49 · 3432 阅读 · 2 评论 -
首个中文Stable Diffusion模型开源,玩转“中文-图片”的跨模态生成任务
文本描述图片生成模型stable diffusion models大火的第4个月,首个中文stable diffusion models正式开源!基于0.2亿筛选过的中文图文对训练,能够轻松实现“中文-图片”的跨模态生成,感兴趣的小伙伴快来一起玩一玩吧!原创 2022-11-05 07:45:00 · 1881 阅读 · 5 评论 -
深入解读Scones:会话式草图生成
今天是1024程序员节,先祝各位程序员节日快乐,bug少少money多多!会话式sketch生成类似于“小爱同学”,可以实现说一句话就生成一张sketch,逐步完善整张图片的生成。是一个非常有意思的、能落地的、有商业化前景的方向。原创 2022-10-24 07:45:00 · 516 阅读 · 4 评论 -
如何获取最新diffusion models多模态方向的科研进展?
我从2021年上半年开始做diffusion models,当时也只是圈内的研究者听说过有一个新的生成式模型好像还可以。没想到2022年的下半年,diffusion models火得一塌糊涂,特别是多模态方向,被stable diffusion的开源吸引了非常多的新玩家加入这一领域。可以说这一领域每天都有值得关注的新工作,如何获取最新的科研进展?千万别落伍!这篇文章详细介绍渠道,快收藏起来!原创 2022-10-27 07:15:00 · 1906 阅读 · 4 评论 -
生成对抗网络GANs15个常用训练技巧
1、Normalize the inputs 标准化输入2、A modified loss function 改进损失函数3、Use a spherical Z 使用spherical Z4、BatchNorm5、Avoid Sparse Gradients: ReLU, MaxPool 避免稀疏梯度:ReLU, MaxPool6、Use Soft and Noisy Labels 使用soft和noisy的标签7、DCGAN / Hybrid Models DCGAN/混合模型原创 2022-11-20 07:45:00 · 703 阅读 · 2 评论 -
AI作画:十分钟快速搭建自己的text-to-image diffusion models
最近AI作画彻底火出圈,diffusion models的研究者也越来越多,就连搞推荐算法、搞目标检测的同学都来问我扩散模型的事情。这篇博客作为一个科普博客,手把手教大家如何用十分钟搭建一个属于自己的text-to-image stable diffusion models。希望能有更多的人一起来玩diffusion models!原创 2022-10-19 11:33:42 · 1910 阅读 · 7 评论 -
CLIPDraw:基于CLIP的text-to-vector生成器
CLIP大火的2020年和2021年,引爆了生成式模型的各个领域。今天介绍一项工作,专门用来text-to-vector操作,能够生成不同艺术风格的绘图,不需要任何训练的就能取得非常惊艳的效果,值得深入探讨。原创 2022-10-13 09:41:51 · 940 阅读 · 2 评论