猴猴猪猪-CSDN博客

微软提出的KOSMOS-2.5，一个多模态读写模型，用于机器阅读文本密集型图像。KOSMOS-2.5在大规模文本密集型图像上进行预训练，支持处理两个独立但协作的转录任务： (1)生成空间感知的文本块 (2)生成结构化markdown文本输出。在文本识别和结构化文本输出上，相比于Google Document AI以及Nougat有比较大的提升。

2023-10-15 14:32:16 992

原创多模态大模型: 幻觉，灾难遗忘

题目:机构：论文:代码:任务:特点:方法:

2023-09-27 13:46:41 256

原创 Qwen-VL：多功能视觉语言模型，能理解、能定位、能阅读等

阿里的多模态大模型，以千问为基础，加入视觉理解，定位，对话，OCR等能力，并支持中英双语，在众多多模态评测基准上超过InstructBLIP等对比方法。

2023-09-21 13:45:36 3967

原创 StyleDrop: 谷歌关于图像风格提取的魔法

谷歌基于Muse这样一种transformer结构的文生图基座模型，利用adapter tuning + iterative training with feedback，可以从一张或者几张图像中提取指定风格并生成指定内容，效果惊艳！

2023-09-06 10:04:08 985

原创 Muse: 谷歌基于Transformer的文生图模型

谷歌提出的一种利用transformer做文生图的模型，借用VQ-GAN生成离散编码，基于文本 + masking用transformer做掩码建模以及预测，推理时用并行解码（非自回归），得到效果与效率都很好的文生图模型。

2023-09-04 20:59:11 1288

原创 Adapter Tuning Overview：在CV，NLP，多模态领域的代表性工作

分别介绍了CV, NLP和多模态三篇利用adapter tuning来做微调的工作，附PPT参考。

2023-08-27 14:16:59 719

原创分割一切：SAM, MobileSAM, Semantic-SAM系列

通过web scale的数据集来预训练LLM，已经让NLP领域革命性地拥有了zero-shot和few-shot的能力。这些“foundation models"能够在训练之外的任务以及分布上具备泛化能力。SAM论文针对分割这个问题主打的就是三个点：任务（promptable），模型，数据（10亿mask, 1100万图像，开源），zero shot能力强劲。“的方式来实现的，即手工的文本用来prompt LM来立刻生成对任务有用的文本答复，题目: Segment Anything。

2023-07-20 22:10:59 489

原创 AIGC之条件可控生成综述：ControlNet, T2I Adapter, Composer

题目:机构：论文:代码：任务:特点:方法:前置相关工作：同期相似性工作：

2023-07-09 14:34:14 727

原创多模态之论文笔记BEiT, BEiT V2, BEiT V3

BEiT, BEiT V2, BEiT V3综述，附PPT

2023-06-29 14:34:42 2757 2

原创多模态大模型综述: LLaVA, MiniGPT4

题目: Visual Instruction Tuning机构：微软论文:任务: 视觉指令微调（具备对话，推理的能力，rather than 图像描述）特点: 利用GPT4做数据生成，以及评测，视觉projection不想BLIP2一样是Q-Former，而是一个简单的映射层方法: LLM选择LLaMA，然后做视觉指令微调前置相关工作：GPT4, LLaMA, BLIP2, OpenFlamingo同期相似性工作：InstructBLIP。

2023-06-17 21:08:22 6883

原创多模态之论文笔记BLIP，BLIP2，Instruct BLIP

题目: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation机构：salesforce research论文:任务: 视觉语言预训练特点: 联合视觉语言理解以及生成，web 文本数据bootstrapping方法: 模型侧设计了MED，数据侧用captioner以及filter进行文本的生成以及噪声过滤。

2023-05-18 18:46:32 4670 1

原创多模态之论文笔记ViLT

机构：韩国NAVER AILAB会议: ICML 2021 long paper，截止2023.04，引用量500+任务: 视觉语言预训练特点: 快方法: 视觉特征提取，无卷积，无region监督视觉语言预训练任务已经提升了许多视觉语言下游任务的表现。现有的视觉语言预训练方法往往很依赖图像的特征提取过程，比如区域的监督（像目标检测）以及卷积的结构（像ResNet）。

2023-04-15 12:08:19 1589 1

原创 AIGC之论文笔记DALL-E

机构：openai人们常说自然语言处理是人工智能皇冠上的明珠，这些年transformer以及大规模语言模型LLM的蓬勃发展，让这颗明珠更加熠熠生辉。除此之外，ViT，MAE等方法也充分验证了图像在transformer以及大规模预训练之路上的可行性，那么近一步的思考，就是如何跨越图像，文本等多种模态的鸿沟，让机器真正实现智能？理解人类生活中存在的各种模态？接收人类的指令，与物理世界交互？实现视，听，说，触等人类感知在机器上的应用。

2023-03-29 22:32:34 1319 1

原创 OCR之论文笔记TrOCR

发表：CVPR2022机构：微软现有的OCR方法往往基于 CNN + RNN的范式来进行建模，前者进行图像理解，后者用于字符级别的文本生成。除此之外，往往额外用一个语言模型来后处理，提高识别的准确率。本文，提出一种基于transformer的文本识别框架，将文本和图像都用transformer来建模，并且可以先在大规模人造数据上预训练，，再在人工标注的数据集上finetune。实验表明，TrOCR可以在印刷，手写和场景文本识别任务中，取得SOTA的结果。

2023-03-18 21:42:12 3910 5