
AIGC与CV多模态:图像生成、视频生成、自动驾驶
文章平均质量分 96
AIGC与CV多模态:图像生成、视频生成、自动驾驶
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月,William Peebles(原创 2024-12-29 00:20:05 · 5258 阅读 · 1 评论 -
从DINO、Grounding Dino到DINOv2、DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)
前言之所以关注到DINOV2,原因在于我解读的多个具身机器人模型的视觉基座都用的它,比如不过,实话讲,DINO论文的可读性是真的不高,使得本次解读不易..总之,本文目前只是个初稿,后面还得花不少时间反复优化。原创 2024-12-21 23:49:35 · 3800 阅读 · 0 评论 -
多模态PaliGemma 2(含1代):Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)
PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型其结合了PaLI视觉语言模型和Gemma语言模型家族的特点。原创 2024-11-05 10:29:19 · 4323 阅读 · 0 评论 -
2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveVLM、DriveMM
本文主要涉及以下4篇paper的解读(按发表的时间顺序排列)DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language ModelDriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous DrivingDriveLM: Driving with Graph Visual原创 2024-08-12 19:00:54 · 12119 阅读 · 0 评论 -
视频生成Sora的从零复现:从Latte、Open-Sora(含1.0及其升级版)到StreamingT2V
目前比较接近sora的开源路线是:Stable Video Diffusion(关于SVD的介绍请看的第4部分]) + Stable Diffusion3的结构(SD3的详细介绍见的第4部分。原创 2024-03-19 15:51:36 · 6593 阅读 · 0 评论 -
Google发布Genie硬杠Sora(含Genie 2):通过大量无监督视频训练最终生成可交互虚拟世界
Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看似更强大(嗯,看似):它生成的虚拟世界自主可控。原创 2024-02-29 12:50:41 · 4539 阅读 · 0 评论 -
文生图中从扩散模型到流匹配的演变:从SDXL到Stable Diffusion3(含Flow Matching和Rectified Flow的详解)
关于我为何关注到这个一致性模型,说来话长啊,历程如下AI绘画原理解析:从CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion在精读DALLE 3的论文时,发现其解码器用到了Consistency Models当然,后来OpenAI首届开发者大会还正式发布了这个模型,让我对它越发好奇Consistency Models的第一作者宋飏也证实了该模型是DALLE 3的解码器。原创 2024-02-27 20:19:57 · 7610 阅读 · 2 评论 -
视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等
真没想到,举例视频生成上一轮的集中爆发才过去三个月,没想OpenAI一出手,该领域又直接变天了自打2.16日OpenAI发布sora以来,不但把同时段Google发布的Gemmi Pro 1.5干没了声音,而且网上各个渠道,大量新闻媒体、自媒体(含公号、微博、博客、视频)做了大量的解读,也引发了圈内外的大量关注,很多人因此认为,视频生成领域自此进入了大规模应用前夕,好比NLP领域中GPT3的发布一开始,我还自以为视频生成这玩意对于有场景的人,是重大利好,比如在影视行业的;原创 2024-02-18 22:49:27 · 54116 阅读 · 34 评论 -
Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0
第一种是基础模式(Basic Mode),用户只需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果,并没有依赖复杂的数据集和大规模的模型训练,PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B 大小的模型就达到了上述效果。),引发了开源社区的大量关注和讨论。迈出了关键性的一步,其生成结果的动态性显著优于目前现有的其它模型,引起了业界的关注。原创 2023-11-27 21:54:06 · 15440 阅读 · 4 评论 -
代码生成的原理解析:从Codex、GitHub Copliot到CodeLlama(用了NTK-aware)、CodeGeex
我们在这篇文章《》中的2.5节有提到,“2021 年7月,OpenAI发布Codex的论文《》,其中初始的Codex是根据120亿参数的GPT-3变体进行微调的,且通过对159GB的Python代码进行代码训练,后来这个120 亿参数的模型演变成OpenAI API中的code-cushman-001,具备较强的代码/推理能力”接下来,我们来看下Codex背后的原理到底是怎样的,即其是如何一步一步训练出来的。原创 2023-12-04 00:14:42 · 10436 阅读 · 5 评论 -
SAM(分割一切):从SAM、FastSAM、Grounded SAM到SAM2、SAMURAI——从分割图像到分割视频
SAM就是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。在SAM出现前,基本上所有的图像分割模型都是专有模型。比如,在医学领域,有专门分割核磁图像的人工智能模型,也有专门分割CT影像的人工智能模型。但这些模型往往只在分割专有领域内的图像时,才具有良好性能,而在分割其他领域的图像时往往性能不佳。原创 2023-07-02 19:03:34 · 14214 阅读 · 6 评论 -
AI绘画原理解析:从CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion(含ControlNet详解)
终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点确实非常非常多的朋友都看过我那篇SVM笔记,影响力巨大,但SVM笔记之后,也还是写了很多新的博客/文章滴,包括但不限于:xgboost、CNN、RNN、LSTM、BERT等今后基本每季度都有更新的计划,欢迎常来关于Stable Diffusion,可以先看下这篇的文章”(此篇文章也是本文的重要参考之一)原创 2023-06-22 00:13:58 · 25361 阅读 · 6 评论 -
图像生成发展起源:从VAE、扩散模型DDPM、DDIM到DETR、ViT、Swin transformer
2018年我写过一篇博客,叫:《》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后,自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世,都不用说最后爆火的GPT4,便可知不少CV同学被卷的不行。原创 2023-04-30 10:56:28 · 31861 阅读 · 35 评论