自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 收藏
  • 关注

原创 ConsiStory:Training-Free的主体一致性生成

NVIDIA一篇效果惊艳的training free的主体一致性生成工作,PPT详解

2024-03-17 21:02:44 304

原创 Sora核心之一:可变时长、分辨率、尺寸(着重探讨NaViT)

Sora关于可变分辨率尺寸的代表性参考文献NaViT详细解读,Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

2024-03-02 12:26:45 484

原创 Sora核心之一:当Diffusion遇到Transformer,DiT的前世今生

Diffusion与Tranformer结合的代表性文章

2024-02-19 17:02:30 2526 2

原创 SORA大模型的一点分析与理解

简要分析SORA的技术博客

2024-02-18 14:33:48 275

原创 多模态大模型:InternLM-XComposer系列

InternLM-XComposer以及InternLM-XComposer2的方法介绍

2024-02-05 14:22:13 290

原创 多模态大模型:关于RLHF那些事儿

RLHF在多模态大模型方面的应用

2023-12-24 22:01:38 741

原创 多模态大模型:关于Better Captions那些事儿

几篇代表性文章,借助改善图像caption数据,用于提升LMM能力,比如ShareGPT4V,CAPSFUSION

2023-12-23 17:43:54 651 1

原创 多模态大模型:关于分辨率那些事儿

介绍几篇多模态大模型领域在分辨率提升方面所做的改进

2023-12-09 16:00:32 490

原创 多模态统计图表综述:图表分类,图表理解,图表生成,图表大一统模型

详细介绍了图表相关的任务:分类,VQA,文本描述,图表生成等,并罗列精讲了各个分支的代表性工作,包括最新的图表预训练以及大一统模型进展。

2023-12-07 20:57:39 1377

原创 ChartLlama:多模态统计图表大模型

图表类多模态大模型,主要创新点是利用GPT-4的强大能力,去构建图表数据,指令微调数据。7种任务,10种图表类型,11K插图,160K指令微调数据。

2023-12-05 21:49:37 1197

原创 DALL-E 3: 管窥蠡测OpenAI open的一个文生图小口

OpenAI公布的DALL-E技术论文解读与分析

2023-11-05 18:25:24 278

原创 文档QA综述:关于多页文档,多模态,检索增强最新的进展

关于文档QA的一些最新进展总结,关注的维度包括多页,多模态,检索增强

2023-11-04 21:49:00 277

原创 CoT进阶:Self Consistency, Least-To-Most

CoT之后的一些改进算法,包括Self Consistency,Least-To-Most等。

2023-11-04 18:20:58 396

原创 CoT: 思路链提示促进大语言模型的多步推理

Google brain思维链路开山之作

2023-11-04 13:31:38 917

原创 Math VISTA:多模态大模型之视觉上下文条件下的数学推理能力评估

引入了一个数学推理能力的评测集MATH Vista,包含七种数学推理类型,五个主要任务,31个子数据集,并且在LLM,visual augmented LLM,开源LMM,以及两个专有 LMM(即 GPT-4V、Bard)展开了广泛的评测(人类表现60.3%)

2023-10-29 18:39:57 464

原创 Pix2Struct:屏幕截图解析作为多模态文档理解的预训练

题目: Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding。

2023-10-15 22:55:58 1121

原创 多模态大模型升级:LLaVA→LLaVA-1.5,MiniGPT4→MiniGPT5

LLaVA, MiniGPT4的改进版本:LLaVA-1.5, MiniGPT5。

2023-10-15 16:44:41 1425

原创 KOSMOS-2.5:密集文本的多模态读写模型

微软提出的KOSMOS-2.5,一个多模态读写模型,用于机器阅读文本密集型图像。KOSMOS-2.5在大规模文本密集型图像上进行预训练,支持处理两个独立但协作的转录任务: (1)生成空间感知的文本块 (2)生成结构化markdown文本输出。在文本识别和结构化文本输出上,相比于Google Document AI以及Nougat有比较大的提升。

2023-10-15 14:32:16 527

原创 多模态大模型: 幻觉,灾难遗忘

题目:机构:论文:代码:任务:特点:方法:

2023-09-27 13:46:41 71

原创 Qwen-VL:多功能视觉语言模型,能理解、能定位、能阅读等

阿里的多模态大模型,以千问为基础,加入视觉理解,定位,对话,OCR等能力,并支持中英双语,在众多多模态评测基准上超过InstructBLIP等对比方法。

2023-09-21 13:45:36 1907

原创 StyleDrop: 谷歌关于图像风格提取的魔法

谷歌基于Muse这样一种transformer结构的文生图基座模型,利用adapter tuning + iterative training with feedback,可以从一张或者几张图像中提取指定风格并生成指定内容,效果惊艳!

2023-09-06 10:04:08 347

原创 Muse: 谷歌基于Transformer的文生图模型

谷歌提出的一种利用transformer做文生图的模型,借用VQ-GAN生成离散编码,基于文本 + masking用transformer做掩码建模以及预测,推理时用并行解码(非自回归),得到效果与效率都很好的文生图模型。

2023-09-04 20:59:11 465

原创 Adapter Tuning Overview:在CV,NLP,多模态领域的代表性工作

分别介绍了CV, NLP和多模态三篇利用adapter tuning来做微调的工作,附PPT参考。

2023-08-27 14:16:59 552

原创 分割一切:SAM, MobileSAM, Semantic-SAM系列

通过web scale的数据集来预训练LLM,已经让NLP领域革命性地拥有了zero-shot和few-shot的能力。这些“foundation models"能够在训练之外的任务以及分布上具备泛化能力。SAM论文针对分割这个问题主打的就是三个点:任务(promptable),模型,数据(10亿mask, 1100万图像,开源),zero shot能力强劲。“的方式来实现的,即手工的文本用来prompt LM来立刻生成对任务有用的文本答复,题目: Segment Anything。

2023-07-20 22:10:59 207

原创 AIGC之条件可控生成综述:ControlNet, T2I Adapter, Composer

题目:机构:论文:代码:任务:特点:方法:前置相关工作:同期相似性工作:

2023-07-09 14:34:14 435

原创 多模态之论文笔记BEiT, BEiT V2, BEiT V3

BEiT, BEiT V2, BEiT V3综述,附PPT

2023-06-29 14:34:42 1455 2

原创 多模态大模型综述: LLaVA, MiniGPT4

题目: Visual Instruction Tuning机构:微软论文:任务: 视觉指令微调(具备对话,推理的能力,rather than 图像描述)特点: 利用GPT4做数据生成,以及评测,视觉projection不想BLIP2一样是Q-Former,而是一个简单的映射层方法: LLM选择LLaMA,然后做视觉指令微调前置相关工作:GPT4, LLaMA, BLIP2, OpenFlamingo同期相似性工作:InstructBLIP。

2023-06-17 21:08:22 5113

原创 多模态之论文笔记BLIP,BLIP2,Instruct BLIP

题目: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation机构:salesforce research论文:任务: 视觉语言预训练特点: 联合视觉语言理解以及生成,web 文本数据bootstrapping方法: 模型侧设计了MED,数据侧用captioner以及filter进行文本的生成以及噪声过滤。

2023-05-18 18:46:32 2658

原创 多模态之论文笔记ViLT

机构:韩国NAVER AILAB会议: ICML 2021 long paper,截止2023.04,引用量500+任务: 视觉语言预训练特点: 快方法: 视觉特征提取,无卷积,无region监督视觉语言预训练任务已经提升了许多视觉语言下游任务的表现。现有的视觉语言预训练方法往往很依赖图像的特征提取过程,比如区域的监督(像目标检测)以及卷积的结构(像ResNet)。

2023-04-15 12:08:19 869

原创 AIGC之论文笔记DALL-E

机构:openai人们常说自然语言处理是人工智能皇冠上的明珠,这些年transformer以及大规模语言模型LLM的蓬勃发展,让这颗明珠更加熠熠生辉。除此之外,ViT,MAE等方法也充分验证了图像在transformer以及大规模预训练之路上的可行性,那么近一步的思考,就是如何跨越图像,文本等多种模态的鸿沟,让机器真正实现智能?理解人类生活中存在的各种模态?接收人类的指令,与物理世界交互?实现视,听,说,触等人类感知在机器上的应用。

2023-03-29 22:32:34 875

原创 OCR之论文笔记TrOCR

发表:CVPR2022机构:微软现有的OCR方法往往基于 CNN + RNN的范式来进行建模,前者进行图像理解,后者用于字符级别的文本生成。除此之外,往往额外用一个语言模型来后处理,提高识别的准确率。本文,提出一种基于transformer的文本识别框架,将文本和图像都用transformer来建模,并且可以先在大规模人造数据上预训练,,再在人工标注的数据集上finetune。实验表明,TrOCR可以在印刷,手写和场景文本识别任务中,取得SOTA的结果。

2023-03-18 21:42:12 2846 5

原创 流畅的Python读书笔记-第九章-符合Python风格的对象

fluent python读书笔记

2022-09-03 13:39:48 357

原创 流畅的Python读书笔记-第八章-对象引用、可变性和垃圾回收

fluent python读书笔记

2022-08-31 08:43:33 235

原创 Python3高级教程(第三版)读书笔记

Python3高级教程(第三版)读书笔记

2022-07-09 14:05:19 533

原创 Python Cookbook读书笔记

Python Cookbook读书笔记

2022-05-03 10:31:00 1161

原创 Python3 面向对象编程

Python3 面向对象编程

2022-04-19 22:25:06 667

原创 Probabilistic Graphical Model 概率图模型 第一讲

概率图模型,bayesian network, markov network, d-separation, conditional independence, moral graph, morkov blanket

2022-04-05 15:47:45 486

原创 Machine Learning with Graphs 之 Message Passing and Node Classification

Machine Learning with Graphs 之 Message Passing and Node Classification

2022-02-27 14:08:33 447

原创 Machine Learning with Graphs 之 Matrix Factorization and Node Embeddings

Machine Learning with Graphs 之 Matrix Factorization and Node Embeddings

2022-02-09 20:45:00 421

原创 Machine Learning with Graphs 之 Random Walk with Restarts and Personalized PageRank

Machine Learning with Graphs 之 Random Walk with Restart and Pensonalized PageRank

2022-02-09 19:38:57 789

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除