多模态与AIGC发展史：赋能图像及视频生成、具身智能_v_JULY

多模态与AIGC发展史：赋能图像及视频生成、具身智能

关注

文章平均质量分 96

多模态大模型与AIGC：图像生成、视频生成、具身智能

关注数：文章数：15 文章阅读量：244819 文章收藏量：2604

作者: v_JULY_v

七月在线创始人兼CEO，结构之法算法之道blog之博主

展开

多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA，到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中)

之所以写本文，源于三个方面一方面，我司「七月在线」准备在一个人形项目中，试下英伟达通用人形VLA GR00T N1，而GR00T N1中所用的VLM是他们自家于25年1月发布的Eagle 2

原创 2025-05-05 13:02:24 · 1734 阅读 · 0 评论
一文通透Qwen多模态大模型：从Qwen-VL、Qwen2-VL到Qwen2.5-VL(含我司提问VLM项目的实现思路)

之所以关注到Qwen多模态大模型，是因为去年我司在实现提问VLM时(今年过年之前便已嵌入在七月在线官网教育层面的每一个视频中)，当时面临两个模型的选择，一个是GPT4o，一个便是Qwen2-vl-72b最终因为后者的性价比更高，便选择了Qwen2-vl-72b。

原创 2025-02-11 21:55:19 · 9838 阅读 · 1 评论
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)

本文最开始属于此文《视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中，在机器人动作预测也被运用的越来越多，加之DiT确实是一个比较大的创新，影响力大，故独立成本文在ViT之前，图像领域基本是CNN的天下，包括扩散过程中的噪声估计器所用的U-net也是卷积架构，但随着ViT的横空出世，人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月，William Peebles(

原创 2024-12-29 00:20:05 · 9568 阅读 · 1 评论
自监督ViT与目标检测：从基于ViT的DINO、DINOv2，到最新目标检测器Grounding Dino、DINO-X

前言之所以关注到DINOV2，原因在于我解读的多个具身机器人模型的视觉基座都用的它，比如不过，实话讲，DINO论文的可读性是真的不高，使得本次解读不易..总之，本文目前只是个初稿，后面还得花不少时间反复优化。

原创 2024-12-21 23:49:35 · 8634 阅读 · 6 评论
多模态PaliGemma 2(含1代)：Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)

PaliGemma 是一个开放的视觉语言模型（VLM），基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型其结合了PaLI视觉语言模型和Gemma语言模型家族的特点。

原创 2024-11-05 10:29:19 · 6131 阅读 · 0 评论
2024自动驾驶(多模态)大模型综述：从DriveGPT4、DriveMLM到DriveVLM、DriveMM

本文主要涉及以下4篇paper的解读(按发表的时间顺序排列)DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language ModelDriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous DrivingDriveLM: Driving with Graph Visual

原创 2024-08-12 19:00:54 · 18115 阅读 · 0 评论
视频生成Sora的从零复现：从Latte、Open-Sora(含1.0及其升级版)到StreamingT2V

目前比较接近sora的开源路线是：Stable Video Diffusion(关于SVD的介绍请看的第4部分]) + Stable Diffusion3的结构(SD3的详细介绍见的第4部分。

原创 2024-03-19 15:51:36 · 7235 阅读 · 0 评论
Google发布Genie硬杠Sora(含Genie 2)：通过大量无监督视频训练最终生成可交互虚拟世界

Sora 问世才不到两个星期，谷歌的世界模型也来了，能力看似更强大(嗯，看似)：它生成的虚拟世界自主可控。

原创 2024-02-29 12:50:41 · 4836 阅读 · 0 评论
文生图中从扩散模型到流匹配的演变：从SDXL到Stable Diffusion3(含Flow Matching和Rectified Flow的详解)

关于我为何关注到这个一致性模型，说来话长啊，历程如下AI绘画原理解析：从CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion在精读DALLE 3的论文时，发现其解码器用到了Consistency Models当然，后来OpenAI首届开发者大会还正式发布了这个模型，让我对它越发好奇Consistency Models的第一作者宋飏也证实了该模型是DALLE 3的解码器。

原创 2024-02-27 20:19:57 · 10116 阅读 · 2 评论
视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等

真没想到，举例视频生成上一轮的集中爆发才过去三个月，没想OpenAI一出手，该领域又直接变天了自打2.16日OpenAI发布sora以来，不但把同时段Google发布的Gemmi Pro 1.5干没了声音，而且网上各个渠道，大量新闻媒体、自媒体(含公号、微博、博客、视频)做了大量的解读，也引发了圈内外的大量关注，很多人因此认为，视频生成领域自此进入了大规模应用前夕，好比NLP领域中GPT3的发布一开始，我还自以为视频生成这玩意对于有场景的人，是重大利好，比如在影视行业的；

原创 2024-02-18 22:49:27 · 57673 阅读 · 34 评论
Sora之前的视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

第一种是基础模式（Basic Mode），用户只需要提供一张指导图片+文本描述，PixelDance 就可以生成有高度一致性且有丰富动态性的视频，其中指导图片可以是真实图片，也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果，并没有依赖复杂的数据集和大规模的模型训练，PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B 大小的模型就达到了上述效果。)，引发了开源社区的大量关注和讨论。迈出了关键性的一步，其生成结果的动态性显著优于目前现有的其它模型，引起了业界的关注。

原创 2023-11-27 21:54:06 · 16656 阅读 · 4 评论
代码生成的原理解析：从Codex、GitHub Copliot到CodeLlama(用了NTK-aware)、CodeGeex

我们在这篇文章《》中的2.5节有提到，“2021 年7月，OpenAI发布Codex的论文《》，其中初始的Codex是根据120亿参数的GPT-3变体进行微调的，且通过对159GB的Python代码进行代码训练，后来这个120 亿参数的模型演变成OpenAI API中的code-cushman-001，具备较强的代码/推理能力”接下来，我们来看下Codex背后的原理到底是怎样的，即其是如何一步一步训练出来的。

原创 2023-12-04 00:14:42 · 12347 阅读 · 5 评论
SAM(分割一切)：从SAM、FastSAM、Grounded SAM到SAM2、SAMURAI——从分割图像到分割视频

SAM就是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同，SAM可以处理所有类型的图像。在SAM出现前，基本上所有的图像分割模型都是专有模型。比如，在医学领域，有专门分割核磁图像的人工智能模型，也有专门分割CT影像的人工智能模型。但这些模型往往只在分割专有领域内的图像时，才具有良好性能，而在分割其他领域的图像时往往性能不佳。

原创 2023-07-02 19:03:34 · 16725 阅读 · 6 评论
多模态与AI绘画发展史：从CLIP、BLIP、InstructBLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion(含ControlNet详解)

终于开写本CV多模态系列的核心主题：stable diffusion相关的了，为何执着于想写这个stable diffusion呢，源于三点确实非常非常多的朋友都看过我那篇SVM笔记，影响力巨大，但SVM笔记之后，也还是写了很多新的博客/文章滴，包括但不限于：xgboost、CNN、RNN、LSTM、BERT等今后基本每季度都有更新的计划，欢迎常来关于Stable Diffusion，可以先看下这篇的文章”(此篇文章也是本文的重要参考之一)

原创 2023-06-22 00:13:58 · 28007 阅读 · 8 评论
图像生成发展起源：从VAE、扩散模型DDPM、DDIM到DETR、ViT、Swin transformer

2018年我写过一篇博客，叫：《》，该文相当于梳理了2019年之前CV领域的典型视觉模型，比如随着2019 CenterNet的发布，特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后，自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世，都不用说最后爆火的GPT4，便可知不少CV同学被卷的不行。

原创 2023-04-30 10:56:28 · 37238 阅读 · 36 评论

多模态与AIGC发展史：赋能图像及视频生成、具身智能

作者: v_JULY_v

多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA，到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中)

一文通透Qwen多模态大模型：从Qwen-VL、Qwen2-VL到Qwen2.5-VL(含我司提问VLM项目的实现思路)

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)

自监督ViT与目标检测：从基于ViT的DINO、DINOv2，到最新目标检测器Grounding Dino、DINO-X

多模态PaliGemma 2(含1代)：Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)

2024自动驾驶(多模态)大模型综述：从DriveGPT4、DriveMLM到DriveVLM、DriveMM

视频生成Sora的从零复现：从Latte、Open-Sora(含1.0及其升级版)到StreamingT2V

Google发布Genie硬杠Sora(含Genie 2)：通过大量无监督视频训练最终生成可交互虚拟世界

文生图中从扩散模型到流匹配的演变：从SDXL到Stable Diffusion3(含Flow Matching和Rectified Flow的详解)

视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等

Sora之前的视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

代码生成的原理解析：从Codex、GitHub Copliot到CodeLlama(用了NTK-aware)、CodeGeex

SAM(分割一切)：从SAM、FastSAM、Grounded SAM到SAM2、SAMURAI——从分割图像到分割视频

多模态与AI绘画发展史：从CLIP、BLIP、InstructBLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion(含ControlNet详解)

图像生成发展起源：从VAE、扩散模型DDPM、DDIM到DETR、ViT、Swin transformer