Jim_gaogao-CSDN博客

原创【多模态】paper阅读笔记：Donut

当前的视觉文档理解（VDU）方法将阅读文本的任务外包给现成的光学字符识别（OCR）引擎，并专注于OCR输出的理解任务。通过广泛的实验和分析，我们展示了一个简单的OCR-free VDU模型Donut，它在各种VDU任务中在速度和准确性方面都达到了最先进的性能。在具有复杂字符集的语言中，如汉语或韩语，OCR的质量相对较低，这一问题变得更加严重。为了从这些文档图像中提取有用的信息，视觉文档理解（VDU）不仅是行业的一项重要任务，也是研究人员的一个具有挑战性的课题，其应用包括文档分类、信息提取和视觉问答。

2024-01-06 10:46:37 935 1

原创【多模态】paper阅读笔记：TrOCR

第二个阶段，研究员们构建了两个相对较小的数据集，分别对应打印体文本识别任务和手写体文本识别任务，均包含上百万的文本行图像，并在打印体数据和手写体数据上预训练了两个独立的模型，且都由第一阶段的预训练模型初始化。对于编码器，TrOCR 采用了 ViT 模式的模型结构，即改变输入图像的尺寸，并切片成固定大小的正方形图像块，以形成模型的输入序列。模型保留预训练模型中的特殊标记“[CLS]”代表整张图片的特征，对于 DeiT 的预训练模型，同样保留了对应的蒸馏token，代表来自于教师模型的蒸馏知识。

2024-01-04 18:58:15 898 1

原创【多模态】paper阅读笔记：Kosmos-2.5

将文本图像纳入训练过程并开发基于文本和视觉信息的模型，可以为涉及高分辨率文本密集图像的多模态应用开启新的可能性。随着深度学习的兴起，文档AI领域取得了显著进展，如LayoutLM、DocFormer、Donut、MarkupLM、XDoc、UDOP和Pix2Struct等模型，它们利用大规模文档数据进行预训练，并将文本、布局和图像信息整合到模型中，取得了令人印象深刻的性能。近年来，研究人员致力于构建更大更复杂的模型，如GPT-3和GPT-4，这些模型具有数百/数千亿的参数，能够生成引人入胜的语言输出。

2023-12-27 16:12:27 1043 1

原创【多模态】paper阅读笔记：BEiT V3

再加上本文提出的将图像视为一种语言的方式，可直接复用已有的大规模语言模型的预训练方法，从而更有利于视觉基础模型的扩大。对应之前提到的，这三方面的统一概念了解后，就能知晓big convergence的相关概念早已存在，即大模型发展成熟的几项条件：一是 Transformers 成为不同领域和问题的通用神经网络架构和建模方式，二是生成式预训练（generative pre-training）成为最重要的自监督学习方法和训练目标，三是数据和模型参数的规模化（scaling up）进一步释放基础模型的潜力。

2023-12-26 10:14:26 1060 1

原创文本摘要任务简述

1.简介文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要，多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文。生成式摘要根据原文，允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘...

2020-02-29 11:20:55 2193 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【多模态】paper阅读笔记：Donut

原创 【多模态】paper阅读笔记：TrOCR

原创 【多模态】paper阅读笔记：Kosmos-2.5

原创 【多模态】paper阅读笔记：BEiT V3

原创 文本摘要任务简述

空空如也

空空如也

原创【多模态】paper阅读笔记：Donut

原创【多模态】paper阅读笔记：TrOCR

原创【多模态】paper阅读笔记：Kosmos-2.5

原创【多模态】paper阅读笔记：BEiT V3

原创文本摘要任务简述