AIGC(MLLM、VLM、LLM、SD)系列——论文解读目录

29 篇文章 7 订阅 ¥89.90 ¥99.00
33 篇文章 101 订阅

涉及面广:多模态生成模型——MLLM ( 目前集中在视觉语言模型——VLM)、大语言模型——LLM、生成模型(SD系列)、对比学习的经典模型(CLIP系列)。

持续更新:对于已经完成解读的会附上链接(有的会在一些场景做尝试,也会附上链接供大家快速参考结果),准备写的会备注筹备中。

适宜人群:节省大把时间,快速定位需要的部分,适合学生、入门AIGC者和从业者作为笔记检索使用。

——————————————————总结—————————————————————

大模型面试知识点

关键词:LLM、大模型、面试、知识点

模型基础:LLM 面试知识点——模型基础知识-CSDN博客

分布式训练:大模型知识点汇总——分布式训练_分布式大模型-CSDN博客

应用框架:

多模态论文总结VLM (MLLM)系列——论文解读总结_mllm vlm-CSDN博客

—————————————————— 纯视觉————————————————————

AIM

论文题目:Scalable Pre-training of Large Autoregressive Image Models

关键词:AIM、对比学习、苹果、解读

论文解读:VM 系列——AIM——论文解读-CSDN博客

应用测试:暂无

——————————————————— LLM ————————————————————

BERT

论文题目:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

关键词:BERT、LLM、大模型、解读

论文解读:LLM 系列——BERT——论文解读-CSDN博客

应用测试:暂无

————————————————— 视觉属性预测 ——————————————————

RAM

论文题目:Recognize Anything: A Strong Image Tagging Model

关键词:RAM、属性识别、多标签分类、解读

论文解读:RAM(recognize anything)—— 论文详解-CSDN博客

应用测试:RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)_from ram.models import ram-CSDN博客

RAM++

论文题目:Open-Set Image Tagging with Multi-Grained Text Supervision

关键词:RAM++、RAM plus plus、属性识别、多标签分类、open set、解读

论文解读:RAM++(recognize anything++)—— 论文详解-CSDN博客

应用测试:暂同 RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)_from ram.models import ram-CSDN博客

OR as Next Token Prediction

论文题目:Object Recognition as Next Token Prediction

关键词:属性识别、多标签分类、open set、解读

论文解读:VLM 系列——Object Recognition as Next Token Prediction——论文解读-CSDN博客

应用测试:暂无

———————————————— 视觉语言大模型 ——————————————————

CLIP

论文题目:Learning Transferable Visual Models From Natural Language Supervision

关键词:CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC

论文解读:VLM 系列——CLIP——论文解读-CSDN博客

应用测试:暂无

Chinese CLIP

论文题目:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese

关键词:中文CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC

论文解读:VLM 系列——中文CLIP——论文解读-CSDN博客

应用测试:暂无

YOLO-WORD

论文题目:YOLO-World: Real-Time Open-Vocabulary Object Detection

关键词:CLIP、yolo word、开集检测、open set

论文解读:目标检测算法——YOLO-Word——算法详解-CSDN博客

应用测试:暂无

BLIP

论文题目:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

关键词:BLIP、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——BLIP——论文解读-CSDN博客

BLIP 2

论文题目:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

关键词:BLIP-2、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——BLIP2——论文解读-CSDN博客

Instruct BLIP

论文题目:InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

关键词:Instruct BLIP、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——CLIP——论文解读-CSDN博客

应用测试:暂无

Llava

论文题目:Visual Instruction Tuning

关键词:Llava、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——Llava——论文解读-CSDN博客

应用测试:暂无

Llava 1.5

论文题目:Visual Instruction Tuning

关键词:Llava 1.5、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——Llava1.5——论文解读-CSDN博客

应用测试:暂无

MoE-LLaVa

论文题目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

关键词:MoE-LLaVA、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——MoE-LLaVa——论文解读-CSDN博客

应用测试:暂无

LLaVA-MoLE

论文题目:LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs

关键词:LLaVA-MoLE、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——LLaVA-MoLE——论文解读-CSDN博客

应用测试:暂无

Llava 1.6

论文题目:Llava 1.6

关键词:Llava 1.6、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——Llava1.6——论文解读-CSDN博客

应用测试:暂无

Qwen-VL

论文题目:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

关键词:Qwen-VL、千问-VL、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——Qwen-VL 千问—— 论文解读-CSDN博客

应用测试:暂无

COGVLM

论文题目:VISUAL EXPERT FOR LARGE LANGUAGE

关键词:COGVLM、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——COGVLM—— 论文解读-CSDN博客

应用测试:暂无

Monkey

论文题目:Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

关键词:Monkey、解读、VLM、图文大模型、AIGC、多模态大模型

论文解读:VLM 系列——Monkey——论文解读-CSDN博客

应用测试:暂无

SEED-X

论文题目:Multimodal Models with Unified Multi-granularity Comprehension and Generation

关键词:SEED-X、解读、VLM、图文大模型、AIGC、图片编辑

论文解读:VM 系列——SEED-X——论文解读-CSDN博客

应用测试:暂无

InternVL 1.5

论文题目:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

关键词:InternVL 1.5、解读、VLM、图文大模型、多模态大模型

论文解读:VLM 系列——InternVL 1.5——论文解读-CSDN博客

应用测试:暂无

————————————————————文生图———————————————————

DALL·E 3

论文题目:Improving Image Generation with Better Captions

关键词:DALL·E 3、文生图、Open AI

论文解读:文生图——DALL-E 3 —论文解读——第一版_dall- e文献-CSDN博客

应用测试:暂无

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值