【OCR多模态大模型paper阅读笔记--2】 LayoutLLM: Layout Instruction Tuning with Large Language Models for Document

关键词

布局指令调优策略(layout instruction tuning strategy)
布局感知预训练
文档级、区域级和段级
布局感知监督微调

布局思维链 (LayoutCoT,layout chain-of-thought)
to focus on regions relevant to the question and generate accurate answers

研究问题:

文档大模型直接zero-shot下游任务。
如何有效利用layout(文档布局信息)。

相关工作:

在这里插入图片描述

Document AI:

做法1-LLM

  1. directly prompting LLMs with document text
  2. training document-based MLLMs
    一般认为文档图片的布局信息(layout)是非常重要的,这部分无法通过直接将文本喂给模型学到。常见的作法是使用Flattened plain text (完全舍弃layout)或layout text with coordinate(不能保证llm能够有效地理解这种格式化的文本)

做法2-MLLM

在这里插入图片描述

现有的使用 MLLM 进行文档理解的工作也没有充分探索文档布局信息。
在预训练阶段,通常应用图像字幕等任务或将文档中的所有文本生成为扁平纯文本。这些图像字幕和纯文本都只提供一个简短的表示,无法捕获文档的布局信息。因此,模型很难在现有的预训练阶段学习文档布局。

在SFT阶段,经常使用与文档相关的VQA或信息提取数据。答案直接在 SFT 期间提供,缺乏对文档布局的显式学习。

目前使用扁平或layout文本来提示llm的方法,以及训练基于文档的mllm不能有效地捕获布局信息,限制了它们的0-shot文档理解能力。关键问题是如何有效地利用layout信息。

做法3-本文

在这里插入图片描述
与现有的使用一般视觉预训练模型作为encoder的MLLM不同,本文将文档预训练模型作为encoder。

布局指令调优策略(layout instruction tuning strategy)
布局感知预训练

分为文档级、区域级和段级,保证模型既能学习到文档的全局信息,又能学习到不同层次的详细信息。
所有提出的预训练任务以指令调优的形式统一。

布局感知监督微调LayoutCoT

motivated by the chain-of-thought (CoT) ability in LLMs
分三步:
Question Analysis问题分析
Relevant Area Concentration相关区域聚焦
Answer Formation答案生成

模型对问题有了更深入的理解,能够专注于相关区域,而不是在整个文档中搜索答案。
并且可以利用已识别区域(如表、段落等)的特定特征来准确地推断答案。它不仅带来了一定程度的可解释性,而且为人工干预或修正模型结果提供了可行的途径。

贡献

  1. layout-aware pre-training
  2. LayoutCoT supervised fine-tuning
  3. zero-shot document understanding
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值