- 博客(101)
- 收藏
- 关注
原创 ConsiStory:Training-Free的主体一致性生成
NVIDIA一篇效果惊艳的training free的主体一致性生成工作,PPT详解
2024-03-17 21:02:44
304
原创 Sora核心之一:可变时长、分辨率、尺寸(着重探讨NaViT)
Sora关于可变分辨率尺寸的代表性参考文献NaViT详细解读,Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
2024-03-02 12:26:45
484
原创 Sora核心之一:当Diffusion遇到Transformer,DiT的前世今生
Diffusion与Tranformer结合的代表性文章
2024-02-19 17:02:30
2526
2
原创 多模态大模型:关于Better Captions那些事儿
几篇代表性文章,借助改善图像caption数据,用于提升LMM能力,比如ShareGPT4V,CAPSFUSION
2023-12-23 17:43:54
651
1
原创 多模态统计图表综述:图表分类,图表理解,图表生成,图表大一统模型
详细介绍了图表相关的任务:分类,VQA,文本描述,图表生成等,并罗列精讲了各个分支的代表性工作,包括最新的图表预训练以及大一统模型进展。
2023-12-07 20:57:39
1377
原创 ChartLlama:多模态统计图表大模型
图表类多模态大模型,主要创新点是利用GPT-4的强大能力,去构建图表数据,指令微调数据。7种任务,10种图表类型,11K插图,160K指令微调数据。
2023-12-05 21:49:37
1197
原创 CoT进阶:Self Consistency, Least-To-Most
CoT之后的一些改进算法,包括Self Consistency,Least-To-Most等。
2023-11-04 18:20:58
396
原创 Math VISTA:多模态大模型之视觉上下文条件下的数学推理能力评估
引入了一个数学推理能力的评测集MATH Vista,包含七种数学推理类型,五个主要任务,31个子数据集,并且在LLM,visual augmented LLM,开源LMM,以及两个专有 LMM(即 GPT-4V、Bard)展开了广泛的评测(人类表现60.3%)
2023-10-29 18:39:57
464
原创 Pix2Struct:屏幕截图解析作为多模态文档理解的预训练
题目: Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding。
2023-10-15 22:55:58
1121
原创 多模态大模型升级:LLaVA→LLaVA-1.5,MiniGPT4→MiniGPT5
LLaVA, MiniGPT4的改进版本:LLaVA-1.5, MiniGPT5。
2023-10-15 16:44:41
1425
原创 KOSMOS-2.5:密集文本的多模态读写模型
微软提出的KOSMOS-2.5,一个多模态读写模型,用于机器阅读文本密集型图像。KOSMOS-2.5在大规模文本密集型图像上进行预训练,支持处理两个独立但协作的转录任务: (1)生成空间感知的文本块 (2)生成结构化markdown文本输出。在文本识别和结构化文本输出上,相比于Google Document AI以及Nougat有比较大的提升。
2023-10-15 14:32:16
527
原创 Qwen-VL:多功能视觉语言模型,能理解、能定位、能阅读等
阿里的多模态大模型,以千问为基础,加入视觉理解,定位,对话,OCR等能力,并支持中英双语,在众多多模态评测基准上超过InstructBLIP等对比方法。
2023-09-21 13:45:36
1907
原创 StyleDrop: 谷歌关于图像风格提取的魔法
谷歌基于Muse这样一种transformer结构的文生图基座模型,利用adapter tuning + iterative training with feedback,可以从一张或者几张图像中提取指定风格并生成指定内容,效果惊艳!
2023-09-06 10:04:08
347
原创 Muse: 谷歌基于Transformer的文生图模型
谷歌提出的一种利用transformer做文生图的模型,借用VQ-GAN生成离散编码,基于文本 + masking用transformer做掩码建模以及预测,推理时用并行解码(非自回归),得到效果与效率都很好的文生图模型。
2023-09-04 20:59:11
465
原创 Adapter Tuning Overview:在CV,NLP,多模态领域的代表性工作
分别介绍了CV, NLP和多模态三篇利用adapter tuning来做微调的工作,附PPT参考。
2023-08-27 14:16:59
552
原创 分割一切:SAM, MobileSAM, Semantic-SAM系列
通过web scale的数据集来预训练LLM,已经让NLP领域革命性地拥有了zero-shot和few-shot的能力。这些“foundation models"能够在训练之外的任务以及分布上具备泛化能力。SAM论文针对分割这个问题主打的就是三个点:任务(promptable),模型,数据(10亿mask, 1100万图像,开源),zero shot能力强劲。“的方式来实现的,即手工的文本用来prompt LM来立刻生成对任务有用的文本答复,题目: Segment Anything。
2023-07-20 22:10:59
207
原创 AIGC之条件可控生成综述:ControlNet, T2I Adapter, Composer
题目:机构:论文:代码:任务:特点:方法:前置相关工作:同期相似性工作:
2023-07-09 14:34:14
435
原创 多模态大模型综述: LLaVA, MiniGPT4
题目: Visual Instruction Tuning机构:微软论文:任务: 视觉指令微调(具备对话,推理的能力,rather than 图像描述)特点: 利用GPT4做数据生成,以及评测,视觉projection不想BLIP2一样是Q-Former,而是一个简单的映射层方法: LLM选择LLaMA,然后做视觉指令微调前置相关工作:GPT4, LLaMA, BLIP2, OpenFlamingo同期相似性工作:InstructBLIP。
2023-06-17 21:08:22
5113
原创 多模态之论文笔记BLIP,BLIP2,Instruct BLIP
题目: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation机构:salesforce research论文:任务: 视觉语言预训练特点: 联合视觉语言理解以及生成,web 文本数据bootstrapping方法: 模型侧设计了MED,数据侧用captioner以及filter进行文本的生成以及噪声过滤。
2023-05-18 18:46:32
2658
原创 多模态之论文笔记ViLT
机构:韩国NAVER AILAB会议: ICML 2021 long paper,截止2023.04,引用量500+任务: 视觉语言预训练特点: 快方法: 视觉特征提取,无卷积,无region监督视觉语言预训练任务已经提升了许多视觉语言下游任务的表现。现有的视觉语言预训练方法往往很依赖图像的特征提取过程,比如区域的监督(像目标检测)以及卷积的结构(像ResNet)。
2023-04-15 12:08:19
869
原创 AIGC之论文笔记DALL-E
机构:openai人们常说自然语言处理是人工智能皇冠上的明珠,这些年transformer以及大规模语言模型LLM的蓬勃发展,让这颗明珠更加熠熠生辉。除此之外,ViT,MAE等方法也充分验证了图像在transformer以及大规模预训练之路上的可行性,那么近一步的思考,就是如何跨越图像,文本等多种模态的鸿沟,让机器真正实现智能?理解人类生活中存在的各种模态?接收人类的指令,与物理世界交互?实现视,听,说,触等人类感知在机器上的应用。
2023-03-29 22:32:34
875
原创 OCR之论文笔记TrOCR
发表:CVPR2022机构:微软现有的OCR方法往往基于 CNN + RNN的范式来进行建模,前者进行图像理解,后者用于字符级别的文本生成。除此之外,往往额外用一个语言模型来后处理,提高识别的准确率。本文,提出一种基于transformer的文本识别框架,将文本和图像都用transformer来建模,并且可以先在大规模人造数据上预训练,,再在人工标注的数据集上finetune。实验表明,TrOCR可以在印刷,手写和场景文本识别任务中,取得SOTA的结果。
2023-03-18 21:42:12
2846
5
原创 Probabilistic Graphical Model 概率图模型 第一讲
概率图模型,bayesian network, markov network, d-separation, conditional independence, moral graph, morkov blanket
2022-04-05 15:47:45
486
原创 Machine Learning with Graphs 之 Message Passing and Node Classification
Machine Learning with Graphs 之 Message Passing and Node Classification
2022-02-27 14:08:33
447
原创 Machine Learning with Graphs 之 Matrix Factorization and Node Embeddings
Machine Learning with Graphs 之 Matrix Factorization and Node Embeddings
2022-02-09 20:45:00
421
原创 Machine Learning with Graphs 之 Random Walk with Restarts and Personalized PageRank
Machine Learning with Graphs 之 Random Walk with Restart and Pensonalized PageRank
2022-02-09 19:38:57
789
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人