猴猴猪猪
这个作者很懒,什么都没留下…
展开
-
多模态大模型:InternLM-XComposer系列
InternLM-XComposer以及InternLM-XComposer2的方法介绍原创 2024-02-05 14:22:13 · 202 阅读 · 0 评论 -
多模态大模型: 幻觉,灾难遗忘
题目:机构:论文:代码:任务:特点:方法:原创 2023-09-27 13:46:41 · 64 阅读 · 0 评论 -
多模态大模型:关于RLHF那些事儿
RLHF在多模态大模型方面的应用原创 2023-12-24 22:01:38 · 699 阅读 · 0 评论 -
多模态之论文笔记ViLT
机构:韩国NAVER AILAB会议: ICML 2021 long paper,截止2023.04,引用量500+任务: 视觉语言预训练特点: 快方法: 视觉特征提取,无卷积,无region监督视觉语言预训练任务已经提升了许多视觉语言下游任务的表现。现有的视觉语言预训练方法往往很依赖图像的特征提取过程,比如区域的监督(像目标检测)以及卷积的结构(像ResNet)。原创 2023-04-15 12:08:19 · 860 阅读 · 0 评论 -
多模态大模型综述: LLaVA, MiniGPT4
题目: Visual Instruction Tuning机构:微软论文:任务: 视觉指令微调(具备对话,推理的能力,rather than 图像描述)特点: 利用GPT4做数据生成,以及评测,视觉projection不想BLIP2一样是Q-Former,而是一个简单的映射层方法: LLM选择LLaMA,然后做视觉指令微调前置相关工作:GPT4, LLaMA, BLIP2, OpenFlamingo同期相似性工作:InstructBLIP。原创 2023-06-17 21:08:22 · 4997 阅读 · 0 评论 -
多模态之论文笔记BLIP,BLIP2,Instruct BLIP
题目: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation机构:salesforce research论文:任务: 视觉语言预训练特点: 联合视觉语言理解以及生成,web 文本数据bootstrapping方法: 模型侧设计了MED,数据侧用captioner以及filter进行文本的生成以及噪声过滤。原创 2023-05-18 18:46:32 · 2603 阅读 · 0 评论 -
OCR之论文笔记TrOCR
发表:CVPR2022机构:微软现有的OCR方法往往基于 CNN + RNN的范式来进行建模,前者进行图像理解,后者用于字符级别的文本生成。除此之外,往往额外用一个语言模型来后处理,提高识别的准确率。本文,提出一种基于transformer的文本识别框架,将文本和图像都用transformer来建模,并且可以先在大规模人造数据上预训练,,再在人工标注的数据集上finetune。实验表明,TrOCR可以在印刷,手写和场景文本识别任务中,取得SOTA的结果。原创 2023-03-18 21:42:12 · 2771 阅读 · 5 评论 -
KOSMOS-2.5:密集文本的多模态读写模型
微软提出的KOSMOS-2.5,一个多模态读写模型,用于机器阅读文本密集型图像。KOSMOS-2.5在大规模文本密集型图像上进行预训练,支持处理两个独立但协作的转录任务: (1)生成空间感知的文本块 (2)生成结构化markdown文本输出。在文本识别和结构化文本输出上,相比于Google Document AI以及Nougat有比较大的提升。原创 2023-10-15 14:32:16 · 502 阅读 · 0 评论 -
CoT: 思路链提示促进大语言模型的多步推理
Google brain思维链路开山之作原创 2023-11-04 13:31:38 · 890 阅读 · 0 评论 -
文档QA综述:关于多页文档,多模态,检索增强最新的进展
关于文档QA的一些最新进展总结,关注的维度包括多页,多模态,检索增强原创 2023-11-04 21:49:00 · 270 阅读 · 0 评论 -
多模态大模型升级:LLaVA→LLaVA-1.5,MiniGPT4→MiniGPT5
LLaVA, MiniGPT4的改进版本:LLaVA-1.5, MiniGPT5。原创 2023-10-15 16:44:41 · 1382 阅读 · 0 评论 -
CoT进阶:Self Consistency, Least-To-Most
CoT之后的一些改进算法,包括Self Consistency,Least-To-Most等。原创 2023-11-04 18:20:58 · 375 阅读 · 0 评论 -
Adapter Tuning Overview:在CV,NLP,多模态领域的代表性工作
分别介绍了CV, NLP和多模态三篇利用adapter tuning来做微调的工作,附PPT参考。原创 2023-08-27 14:16:59 · 552 阅读 · 0 评论 -
多模态统计图表综述:图表分类,图表理解,图表生成,图表大一统模型
详细介绍了图表相关的任务:分类,VQA,文本描述,图表生成等,并罗列精讲了各个分支的代表性工作,包括最新的图表预训练以及大一统模型进展。原创 2023-12-07 20:57:39 · 1342 阅读 · 0 评论 -
多模态之论文笔记BEiT, BEiT V2, BEiT V3
BEiT, BEiT V2, BEiT V3综述,附PPT原创 2023-06-29 14:34:42 · 1412 阅读 · 2 评论 -
多模态大模型:关于Better Captions那些事儿
几篇代表性文章,借助改善图像caption数据,用于提升LMM能力,比如ShareGPT4V,CAPSFUSION原创 2023-12-23 17:43:54 · 613 阅读 · 1 评论 -
分割一切:SAM, MobileSAM, Semantic-SAM系列
通过web scale的数据集来预训练LLM,已经让NLP领域革命性地拥有了zero-shot和few-shot的能力。这些“foundation models"能够在训练之外的任务以及分布上具备泛化能力。SAM论文针对分割这个问题主打的就是三个点:任务(promptable),模型,数据(10亿mask, 1100万图像,开源),zero shot能力强劲。“的方式来实现的,即手工的文本用来prompt LM来立刻生成对任务有用的文本答复,题目: Segment Anything。原创 2023-07-20 22:10:59 · 198 阅读 · 0 评论 -
Pix2Struct:屏幕截图解析作为多模态文档理解的预训练
题目: Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding。原创 2023-10-15 22:55:58 · 1053 阅读 · 0 评论 -
ChartLlama:多模态统计图表大模型
图表类多模态大模型,主要创新点是利用GPT-4的强大能力,去构建图表数据,指令微调数据。7种任务,10种图表类型,11K插图,160K指令微调数据。原创 2023-12-05 21:49:37 · 1174 阅读 · 0 评论 -
Qwen-VL:多功能视觉语言模型,能理解、能定位、能阅读等
阿里的多模态大模型,以千问为基础,加入视觉理解,定位,对话,OCR等能力,并支持中英双语,在众多多模态评测基准上超过InstructBLIP等对比方法。原创 2023-09-21 13:45:36 · 1821 阅读 · 0 评论 -
Math VISTA:多模态大模型之视觉上下文条件下的数学推理能力评估
引入了一个数学推理能力的评测集MATH Vista,包含七种数学推理类型,五个主要任务,31个子数据集,并且在LLM,visual augmented LLM,开源LMM,以及两个专有 LMM(即 GPT-4V、Bard)展开了广泛的评测(人类表现60.3%)原创 2023-10-29 18:39:57 · 434 阅读 · 0 评论 -
多模态大模型:关于分辨率那些事儿
介绍几篇多模态大模型领域在分辨率提升方面所做的改进原创 2023-12-09 16:00:32 · 465 阅读 · 0 评论