AIGC生成一切系列(含多模态):AI绘画与sora视频生成
文章平均质量分 95
AIGC生成一切系列(含多模态):图像/视频/代码生成
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
视频生成Sora的从零复现:从Latte、Open-Sora(含1.0及其升级版)到StreamingT2V
目前比较接近sora的开源路线是:Stable Video Diffusion(关于SVD的介绍请看的第4部分]) + Stable Diffusion3的结构(SD3的详细介绍见的第4部分。原创 2024-03-19 15:51:36 · 2144 阅读 · 0 评论 -
Google发布Genie硬杠Sora:通过大量无监督视频训练最终生成可交互虚拟世界
Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看似更强大(嗯,看似):它生成的虚拟世界自主可控。原创 2024-02-29 12:50:41 · 3095 阅读 · 0 评论 -
文生图的最新进展:从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning
很明显,OpenAI的首个视频生成模型sora极大程度的点燃了大家对文生图、文生视频的热情,也极大的扩展了大家对AIGC的想象力原创 2024-02-27 20:19:57 · 3455 阅读 · 1 评论 -
视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等
真没想到,举例视频生成上一轮的集中爆发才过去三个月,没想OpenAI一出手,该领域又直接变天了自打2.16日OpenAI发布sora以来,不但把同时段Google发布的Gemmi Pro 1.5干没了声音,而且网上各个渠道,大量新闻媒体、自媒体(含公号、微博、博客、视频)做了大量的解读,也引发了圈内外的大量关注,很多人因此认为,视频生成领域自此进入了大规模应用前夕,好比NLP领域中GPT3的发布一开始,我还自以为视频生成这玩意对于有场景的人,是重大利好,比如在影视行业的;原创 2024-02-18 22:49:27 · 31456 阅读 · 31 评论 -
Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0
第一种是基础模式(Basic Mode),用户只需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果,并没有依赖复杂的数据集和大规模的模型训练,PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B 大小的模型就达到了上述效果。),引发了开源社区的大量关注和讨论。迈出了关键性的一步,其生成结果的动态性显著优于目前现有的其它模型,引起了业界的关注。原创 2023-11-27 21:54:06 · 10964 阅读 · 4 评论 -
代码生成的原理解析:从Codex、GitHub Copliot到CodeLlama、CodeGeex
我们在这篇文章《》中的2.5节有提到,“2021 年7月,OpenAI发布Codex的论文《》,其中初始的Codex是根据120亿参数的GPT-3变体进行微调的,且通过对159GB的Python代码进行代码训练,后来这个120 亿参数的模型演变成OpenAI API中的code-cushman-001,具备较强的代码/推理能力”接下来,我们来看下Codex背后的原理到底是怎样的,即其是如何一步一步训练出来的。原创 2023-12-04 00:14:42 · 5568 阅读 · 5 评论 -
图像分割的大变革:从SAM(分割一切)到FastSAM、MobileSAM
SAM就是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。在SAM出现前,基本上所有的图像分割模型都是专有模型。比如,在医学领域,有专门分割核磁图像的人工智能模型,也有专门分割CT影像的人工智能模型。但这些模型往往只在分割专有领域内的图像时,才具有良好性能,而在分割其他领域的图像时往往性能不佳。原创 2023-07-02 19:03:34 · 8261 阅读 · 4 评论 -
AI绘画原理解析:从CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion
终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点确实非常非常多的朋友都看过我那篇SVM笔记,影响力巨大,但SVM笔记之后,也还是写了很多新的博客/文章滴,包括但不限于:xgboost、CNN、RNN、LSTM、BERT等今后基本每季度都有更新的计划,欢迎常来关于Stable Diffusion,可以先看下这篇的文章”(此篇文章也是本文的重要参考之一)原创 2023-06-22 00:13:58 · 17834 阅读 · 6 评论 -
图像生成发展起源:从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer
2018年我写过一篇博客,叫:《》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后,自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世,都不用说最后爆火的GPT4,便可知不少CV同学被卷的不行。原创 2023-04-30 10:56:28 · 19719 阅读 · 16 评论