多模态学习
文章平均质量分 92
文本视觉问答、图像分类、信息提取
CharlesWu123
分享平时积累与学习的内容,研究方向:OCR,图像,深度学习。
展开
-
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读
受语言的 LLMs 启发,纯 NLP 大模型(如 LLaMA)从英文到中文(外语)时因为原始词表编码中文效率低,必须要扩大 text 词表。那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的,遇到 “foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片 token 化,Vary 提出就是解决这一问题,在不 overwrite 原有词表前提下,高效扩充视觉词表。原创 2023-12-20 18:13:31 · 1451 阅读 · 1 评论 -
多模态大模型 Monkey、TextMonkey、Mini-Monkey ---- 论文阅读
TextMonkey为了解决大模型对于文档图像的分辨率问题,使用了滑动窗口并且采用了零初始化的移位窗口注意力来对多窗口建立关系。为了解决视觉 token 的冗余,提出使用 token 重采样来有效减少 token 的数量。同时针对大模型容易出现的幻觉问题,加入了面向文本的任务,增强模型对空间关系的感知和理解。原创 2024-03-31 16:09:53 · 1346 阅读 · 0 评论 -
多模态大模型技术详解(图像分块、特征对齐、训练)
这篇文档主要讲解目前比较流行的缝合式的多模态大模型的基本模块。缝合式多模态大模型的架构:包括视觉编码器、视觉文本对齐层、大语言模型,流程主要是通过视觉编码器提取图像特征,再通过视觉文本对齐层将图像和文本特征对齐,也包括对视觉特征的在提取,主要是为了减少视觉 token 的数量,然后将视觉特征和文本特征一起输入到大模型中获取结果。原创 2024-08-24 15:01:14 · 900 阅读 · 0 评论 -
UDOP:Unifying Vision, Text, and Layout for Universal Document Processing ---- 论文阅读
文档人工智能具有独特的挑战,使其有别于其他视觉语言领域。例如,文本和视觉模态之间的跨模态交互在文档中比在常规视觉语言数据中强得多,因为文本模态在视觉上位于图像中。此外,下游任务在领域和范例上是多样化的,例如,文档问答、布局检测、文档分类、信息提取等。这增加了两个挑战如何利用图像、文本和布局模式之间的强相关性,并将它们统一对整个文档进行建模?模型如何有效地有效地学习不同领域的不同视觉、文本和布局任务?原创 2023-04-27 19:59:04 · 1297 阅读 · 0 评论 -
文档图像分类、信息提取、信息结构化之 LayoutLM、LayoutLMv2、LayoutXLM —— 论文阅读笔记
LayoutLM: Pre-training of Text and Layout for Document Image UnderstandingLAYOUTLMV2: MULTI-MODAL PRE-TRAINING FOR VISUALLY-RICH DOCUMENT UNDERSTANDING在表单理解、票据理解和文档图像分类都有不错的效果。原创 2021-04-17 23:16:41 · 7062 阅读 · 6 评论 -
多模态综述
Bert 预训练、TextVQA、LayoutLM原创 2021-07-08 22:36:07 · 813 阅读 · 0 评论 -
SayAsYouWish:Fine-grained Control of Image Caption Generation with Abstract Scene Graphs ---- 论文阅读笔记
Paper : http://arxiv.org/abs/2003.00387v1 [CVPR2020]提出了一种更加细粒度的控制信号,称为抽象场景图 ( Abstract Scene Graph, ASG ),可以通过图结构同时控制所希望表达的物体、属性和关系,不仅能反映用户细粒度的描述意图,也能生成更具有多样性的图像描述。ASG 是一个包含三类抽象节点的有向图,这三类抽象节点分别代表用户希望描述的物体 ( object ) 、属性 ( attribute ) 和关系 ( relationship.原创 2020-07-21 19:50:00 · 581 阅读 · 0 评论 -
Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps —— 论文阅读笔记
M4C 把文本和视觉对象统一对待,并将文本特征作为一个整体,一起输入到 Transformer 中。SMA 使用异构图对图像中的object-object、object-text 和 text-text 关系进行编码,然后设计一个图注意网络对其进行推理。MM-GNN 将图像表示为三个图,并引入三个聚合器来引导消息从一个图传递到另一个图。与M4C相比,该方法首先用三个注意力块过滤掉无关的或者多余的特征并且将它们聚合成六个单独功能的向量。相对于 M4C,这 6 个向量有更少的计算量。与 MM-GNN原创 2021-01-08 15:33:41 · 800 阅读 · 3 评论 -
Text-VQA数据集以及方法总结
TextVQA数据集:ST-VQA | Paper | DownloadText-VQA | Paper | DownloadOCR-VQA | Paper | DownloadSTE-VQA | Paper |方法:M4C | Paper | Code | 笔记SA-M4C | Paper | 笔记SMA | Paper | 笔记MM-GNN | PaperLoRRA | Paper | CodeQA R-CNN | Paper原创 2020-08-04 23:41:06 · 6110 阅读 · 8 评论 -
SMA :Structured Multimodal Attentions for TextVQA --- 论文阅读笔记
Paper : https://arxiv.org/abs/2006.00753SMA 首先使用结构图表示去编码图像中的 object-object,object-text 和 text-text 之间的关系,然后使用一 个多模态图注意力网络去理解,最后,由全局-局部注意回答模块处理来自上述模块的输出,以迭代地产生包含OCR和一般文本的答案。PipelineSMA 模型对具有多种关系类型的图进行推理。Question Self-Attention Module 把问题分解为六个子组件,包括.原创 2020-08-03 20:46:41 · 1092 阅读 · 0 评论 -
SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记
Paper : https://arxiv.org/abs/2007.12146 [ECCV2020]spatially aware self-attention layer : 使用空间图定义每一个视觉实体只看相邻的实体,多头自注意力层的每个头都专注于关系的不同子集。每个头都考虑局部上下文,而不是将注意力分散在所有视觉实体中;避免学习多余的特征在TextVQA数据集中大约有13% 的问题存在一个或多个空间词,SA-M4C构建一个空间图编码视觉实体之间的空间关系,使用此关系辅助多模态 tr.原创 2020-08-03 20:36:56 · 953 阅读 · 0 评论 -
M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记
Paper : https://arxiv.org/abs/1911.06258Code : https://ronghanghu.com/m4c/基于多模式 transformer 结构以及图像中文本的丰富表示形式。 通过将不同模态嵌入到共同的语义空间中,自然地将不同的模式融合在一起,在该空间中,自我注意被应用于模式间和模式内上下文。使用动态指针网络进行迭代答案解码,从而允许模型通过多步预测而不是一步分类来形成答案。在三个数据集上验证:TextVQA,ST-VQA,OCR-VQAMultimo.原创 2020-08-03 20:29:16 · 1657 阅读 · 1 评论 -
预训练 Bert 【 VilBERT,LXMERT,VisualBERT,Unicoder-VL,VL-BERT,ImageBERT 】--- 记录
VilBERT 和 LXMERT 网络结构都是句子和图像的两个单模态的网络,然后使用一个跨模态的 Transformer 融合信息。VisualBert , B2T2, Unicoder-VL,VL-BERT,Unified VLP,UNITER的网络结构都大致相同,不同在于预训练数据集和任务不同。IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATAPaper : http://ar原创 2020-07-27 11:34:19 · 2914 阅读 · 0 评论