DocLayout-YOLO |上海AI Lab最新兼具速度精度的文档布局分析模型

上海AI Lab 提出基于YOLO-v10的 DocLayout-YOLO,代码已开源!

1、DocLayout-YOLO

DocLayout-YOLO是一个文档布局分析工具,通过多样化的合成数据和全局到局部的自适应感知增强文档布局分析,提升处理速度和准确性。

具体来说,文档布局分析要实现的效果是,定位文档元素并识别所属的类别。

如下所示:可以使用文档分析工具,来实现确定试卷中的标题/图标/纯文本等等

db8aaec4735561f06294cec9cbb0c303.png

真实世界的文档理解系统,文档布局分析是非常重要的,但在速度和准确性的权衡是一个挑战:

1、利用文本和视觉特征的多模式方法可以实现更高的准确性,但处理速度慢

2、仅依赖视觉特征的单模态方法,则会牺牲准确性为代价,但提供了更快的处理速度

DocLayout YOLO在速度和准确性方面都表现出色,主要贡献:

1、引入了Mesh候选BestFit算法,该算法将文档合成构建为二维装箱问题,生成大规模、多样化的DocSynth-300K数据集。

2、提出了一种全局到局部可控接收模块,能够更好地处理文档元素的多尺度变化

2、DocLayout-YOLO 主要贡献细节

1、Mesh-candidate BestFit (合成数据方案)

由于现有的数据集大部分都是学术论文类型的数据集,严重限制了更加通用的场景。让数据集更加多样,需要同时考虑文档元素的多样性(不同表格、字体、标题和图片等等)和文档布局的多样性(单列、多列、论文和杂志等排版)。

本文通过利用元素和布局多样性来自动合成多样化和组织良好的文档数据集。

36d54b0d1d6a7e2899587c6d922a485a.png

如上图所示,算法通过以下步骤来生成数据集:

  1. 候选抽样。对于每个空白页,根据元素大小从元素池中分层抽样获得一个子集,作为候选集。然后,从候选集中随机抽取一个元素,并将其放置在页面上的某个位置。

  2. 网格构造。根据布局构建网格,过滤掉与插入元素重叠的无效网格。在后续步骤中,只有剩余的网格能够参与与候选者的匹配。

  3. BestFit Pair搜索。对于每个候选,遍历所有符合大小要求的网格,并搜索填充率最高的网格候选对。随后,从候选集中删除最佳候选并更新布局。

  4. 迭代布局填充。重复步骤2至3,直到没有有效的网格候选满足尺寸要求。最终,随机中心缩放将分别应用于所有填充的元素

下面即为合成的数据集示例:

d147b62459ab9bbf02eecda380595f31.png

2、GLOBAL-TO-LOCAL MODEL ARCHITECTURE

与自然图像不同,文档图像中的不同元素在比例上可能存在显著差异,例如单行标题和整页表格。为了应对这种规模变化的挑战,我们引入了一种名为GLCRM的分层架构,该架构由两个主要组件组成:可控接收模块(CRM)和全局到局部设计(GL)。

c08d26a9a6abd16a1549f126bfbb2d59.png

CRM灵活地提取和集成具有多个尺度和粒度的特征。

3a9602429933551bcb04f533b6e05b19.png

GL架构则具有从全局上下文(整个页面尺度)到子块区域(中等尺度),最后到局部语义信息的分层感知过程。

3、不同场景的应用效果

e652ba75f3f02ede1fdbcfb1d6c24936.png

论文和项目地址:

论文:https://arxiv.org/pdf/2410.12628
代码:https://github.com/opendatalab/DocLayout-YOLO
在线demo:https://huggingface.co/spaces/opendatalab/DocLayout-YOLO

49f6f40f1ecd9f1c4c0cd30779e6ce2b.png最后,今天的分享如果对大家有所帮助,还请多帮忙转发点赞,感谢!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值