自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 论文阅读:LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

文本、布局和图片的多模态联合预训练在VrDU任务中取得了最好的成绩,表明了跨模态学习的巨大潜力。在这篇文章中,我们提出LayoutXLM,一个用于多语言文档视觉理解的多模态预训练模型,其目标是打通VrDU任务的语言屏障。为了精准地评估LayoutXML,我们也引入了多语言表单理解任务的基准数据集XFUND,包含了7种语言样本的表单,以及每一种语言人工标注的键值对。实验结果表明layoutXLM大幅突破了现有在XFUND上进行跨语言预训练的模型。

2023-11-08 10:10:30 680 1

原创 论文阅读:LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

由于模型架构的高效性以及大规模无标记的文档数据,对文本和布局的联合预训练在很多理解任务上都十分有效。我们提出了LayoutLMv2架构,以及新的预训练任务来对文本、布局和图像在一个单一多模态框架中进行建模。LayoutMLv2用一种2-stream多模态transformer编码器,不仅采用掩码视觉语言建模任务,也用了新的文本-图像匹配和文本-图像对齐来进行预训练,这使得模型能在预训练阶段更好地抓住跨模态的信息交流。

2023-10-30 12:04:38 220 1

原创 论文阅读:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

我们提出一种新的语言表示模型BERT,Bidirectional Encoder Representations from Transformers,不像最近的语言表征模型,BERT的设计目的是通过联合调节(jointly conditioning)各层中的左右上下文(left and right context)从无标签文本中预训练双向表征。因此,预训练BERT模型只需一个额外的输出层并进行微调就可以创造一系列任务上的SOTA模型,比如问题回答和语言推断,而不用对具体架构进行大量修改。

2023-10-21 20:17:25 101 1

原创 论文阅读+理解:Attention is All You Need

主流的序列转录模型主要基于包括编码器和解码器的复杂RNN或CNN。当前表现最好的模型是通过注意力机制将编码器和解码器进行连接的。我们提出了一个相对简单的网络架构——Transformer,基于纯净注意力机制,摈弃了传统的RNN与CNN。在两个机器翻译任务上的实验展示了这些模型在表现上更好,而且更加并行化,训练时间也更短。我们的模型在WMT 2014 英语-德语翻译任务上达到了28.4 BLEU(一种翻译任务的评价指标),比现有的记录高出2个BLEU。

2023-10-09 18:44:49 246 1

原创 论文阅读:LayoutLM: Pre-training of Text and Layout for Document Image Understanding

近年,预训练技术的有效性在NLP的各个任务中被证实。尽管预训练模型在NLP中被广泛使用,它们几乎都聚焦于文本级别的操作,忽略了布局和风格信息。这篇文章中,团队提出了LayoutLM来同时建模文本之间的关联与布局信息,这有利于理解真实世界大量的文档图像理解任务。此外,我们也利用图像的特征来将文字的视觉信息整合到LayoutLM中。据我们所知,这是第一次在单个文档层级预训练框架中整合文本和布局信息,在几个下游任务(表格理解、收据理解以及文档图像分类)中都获得了最好的结果。

2023-10-06 19:52:55 88

原创 论文阅读:Enhancing Visually-Rich Document Understanding via Layout Structure Modeling

多模态预训练transformer大幅增强了模型对富文本文件的理解能力。然而,现有的模型主要聚焦于特征(比如文本和图像),却忽略了文本结点之间的布局关系。这篇论文提出了一种全新的文档理解模型GraphLayoutLM,利用布局结构图的建模来将文档结构的布局信息注入到模型当中。这一模型基于图结构,使用一种图的重排序算法来调整文本的顺序。另外,这一模型使用一种布局意识(layout-aware)+多头(multi-head)+自注意力(self-attention)层来学习文档的布局信息。

2023-10-01 10:47:52 361

原创 论文阅读:PP-OCR: A Practical Ultra Lightweight OCR System

PaddleOCR论文阅读(模型简介+主要策略)

2023-09-20 10:24:08 182 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除