探索分析文档布局，基于嵌入式端超轻量级模型LeYOLO全系列【n/s/m/l】参数模型开发构建大规模文档数据集DocLayNet场景下文档图像布局智能检测分析识别系统

Together_CZ

于 2024-09-23 01:00:00 发布

阅读量1.3k

点赞数 28

文章标签：人工智能 YOLO

本文链接：https://blog.csdn.net/Together_CZ/article/details/141706644

版权

随着数字化和信息化的快速发展，大量的文档（如合同、报告、表格、发票等）以电子形式存在，这些文档中包含了丰富的信息。然而，这些信息往往以非结构化的形式存在，难以直接被计算机程序理解和处理。文档布局分析任务的目的就是将这些非结构化的文档转换为结构化的数据，从而使得计算机能够自动地理解、分类、检索和处理这些文档中的信息。

为了推动文档布局分析技术的发展，需要一个大规模、多样性、高质量的数据集来训练和评估模型。DocLayNet数据集的构建正是出于以下几个需要：

模型训练：大规模的数据集可以为模型训练提供丰富的数据资源，帮助模型学习到更复杂的文档布局特征。
 
模型评估：高质量的数据集可以用于模型的评估，确保模型的性能和泛化能力。
 
技术研究：多样性的数据集可以支持多种文档布局分析技术的研究，推动技术的创新和发展。
 
应用开发：数据集的构建为开发实际应用提供了基础，如自动文档处理系统、信息提取工具等。

DocLayNet是一个大规模的数据集，专门用于文档布局分析任务。该数据集由德国人工智能研究中心（DFKI）和萨尔大学联合开发，旨在推动文档理解技术的发展。DocLayNet数据集包含了多种类型的文档，如合同、表格、发票、简历等，总计超过10万页的文档图像。

【数据集特点】
多样性：DocLayNet包含了多种类型的文档，涵盖了广泛的领域和格式，确保了数据集的多样性和实用性。
大规模：数据集包含超过10万页的文档图像，为模型训练提供了丰富的数据资源。
高质量标注：每页文档都经过了详细的标注，包括文本区域、表格、图像、标题、段落等元素的位置和类别信息。
多语言支持：数据集中的文档包含了多种语言，有助于模型在多语言环境下的泛化能力。
 
 
【数据格式】
DocLayNet数据集的标注信息以JSON格式提供，每个文档的标注文件包含了以下信息：
页面信息：每个页面的尺寸、分辨率等基本信息。
区域标注：每个页面上的不同区域（如文本、表格、图像等）的位置和类别信息。
文本内容：每个文本区域的具体文本内容（可选）。
 
 
【应用场景】
DocLayNet数据集主要用于以下几个方面的研究和应用：
文档布局分析：识别和理解文档中的不同布局元素，如文本、表格、图像等。
文档分类：根据文档的布局和内容，对文档进行分类。
信息提取：从文档中提取特定信息，如合同中的条款、发票中的金额等。
文档理解：通过分析文档的布局和内容，理解文档的整体结构和含义。

本文的主要目的就是想要基于大规模文档布局分析数据集DocLayNet来尝试开发构建相应的目标检测分析系统，在前文我们已经有了相关的开发实践感兴趣的话可以自行移步阅读即可：

《探索分析文档布局，基于YOLOv3全系列【yolov3tiny/yolov3/yolov3spp】参数模型开发构建大规模文档数据集DocLayNet场景下文档图像布局智能检测分析识别系统》

《探索分析文档布局，基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建大规模文档数据集DocLayNet场景下文档图像布局智能检测分析识别系统》

《探索分析文档布局，基于YOLOv7全系列【tiny/l/x】参数模型开发构建大规模文档数据集DocLayNet场景下文档图像布局智能检测分析识别系统》

《探索分析文档布局，基于YOLOv8全系列【n/s/m/l/x】参数模型开发构建大规模文档数据集DocLayNet场景下文档图像布局智能检测分析识别系统》

《探索分析文档布局，基于YOLOv9全系列【yolov9/t/s/m/c/e】参数模型开发构建大规模文档数据集DocLayNet场景下文档图像布局智能检测分析识别系统》

《探索分析文档布局，基于YOLOv10全系列【n/s/m/b/l/x】参数模型开发构建大规模文档数据集DocLayNet场景下文档图像布局智能检测分析识别系统》

传统的YOLOs系列的模型虽然提供了不同参数量级系列的模型，方便部署应用到不同的硬件平台上面去，但是实际在弱算力设备下还是捉襟见肘的，比如：对于树莓派来讲，那YOLOv5系列最为轻量级的n系列的模型也是非常吃力，但是那YOLOv5-lite系列的模型就可以比较轻松地跑起来，这印证了模型轻量化设计的必要性，本文采用的是正是经过轻量化设计了leYOLO模型，首先看下实例效果：

数据实例如下所示：

深度神经网络中的计算效率对于目标检测至关重要，尤其是在新模型将速度优先于高效计算（FLOP）的情况下。这种演变在某种程度上已经落后于嵌入式和面向移动的AI对象检测应用程序。这里重点讨论了基于FLOP的高效目标检测计算的神经网络结构的设计选择，并提出了几种优化方法来提高基于YLO的模型的效率。
首先，介绍了一种基于反向瓶颈和信息瓶颈原理的有效主干扩展方法。其次，提出了快速金字塔结构网络（FPAN），旨在促进快速多尺度特征共享，同时减少计算资源。最后提出了一个解耦的网络中网络（DNiN）检测头的设计，以提供快速而轻量级的计算分类和回归任务。
在这些优化的基础上，利用更高效的主干，为对象检测和以YOLO为中心的模型（称为LeYOLO）提供了一种新的缩放范例。在各种资源限制下始终优于现有模型，实现了前所未有的准确性和失败率。值得注意的是，LeYOLO Small在COCO val上仅以4.5次失败（G）获得了38.2%的竞争性mAP分数，与最新最先进的YOLOv9微小模型相比，计算量减少了42%，同时实现了类似的精度。我们的新型模型系列实现了以前未达到的浮点精度比，提供了从超低神经网络配置（<1 GFLOP）到高效但要求苛刻的目标检测设置（>4 GFLOP）的可扩展性，对于0.66、1.47、2.53、4.51、5.8和8.4浮点（G），具有25.2、31.3、35.2、38.2、39.3和41 mAP。

训练数据配置如下：

# path
train: ./dataset/images/train/
val: ./dataset/images/test/
 
 
# number of classes
nc: 11
 
 
# class names
names: ['Caption', 'Footnote', 'Formula', 'ListItem', 'PageFooter', 'PageHeader', 'Picture', 'SectionHeader', 'Table', 'Text', 'Title']

官方发布的预训练模型权重如下：

Models	mAP	Image Size	FLOP (G)
LeYOLONano	25.2	320	0.66
LeYOLONano	31.3	480	1.47
LeYOLOSmall	35.2	480	2.53
LeYOLOSmall	38.2	640	4.51
LeYOLOMedium	39.3	640	5.80
LeYOLOLarge	41.0	768	8.40

一共提供了n、s、m和l四款不同参数量级的模型。

这里我们保持完全相同的实验参数设置来进行四款模型的开发训练，等待训练完成之后我们来整体进行各项指标的对比分析。

【Precision曲线】
精确率曲线（Precision Curve）是一种用于评估二分类模型在不同阈值下的精确率性能的可视化工具。它通过绘制不同阈值下的精确率和召回率之间的关系图来帮助我们了解模型在不同阈值下的表现。精确率（Precision）是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。
绘制精确率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的精确率和召回率。
将每个阈值下的精确率和召回率绘制在同一个图表上，形成精确率曲线。
根据精确率曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
通过观察精确率曲线，我们可以根据需求确定最佳的阈值，以平衡精确率和召回率。较高的精确率意味着较少的误报，而较高的召回率则表示较少的漏报。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。
精确率曲线通常与召回率曲线（Recall Curve）一起使用，以提供更全面的分类器性能分析，并帮助评估和比较不同模型的性能。

【Recall曲线】
召回率曲线（Recall Curve）是一种用于评估二分类模型在不同阈值下的召回率性能的可视化工具。它通过绘制不同阈值下的召回率和对应的精确率之间的关系图来帮助我们了解模型在不同阈值下的表现。
召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。召回率也被称为灵敏度（Sensitivity）或真正例率（True Positive Rate）。
绘制召回率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的召回率和对应的精确率。
将每个阈值下的召回率和精确率绘制在同一个图表上，形成召回率曲线。
根据召回率曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
通过观察召回率曲线，我们可以根据需求确定最佳的阈值，以平衡召回率和精确率。较高的召回率表示较少的漏报，而较高的精确率意味着较少的误报。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。
召回率曲线通常与精确率曲线（Precision Curve）一起使用，以提供更全面的分类器性能分析，并帮助评估和比较不同模型的性能。

【loss曲线】

在深度学习的训练过程中，loss函数用于衡量模型预测结果与实际标签之间的差异。loss曲线则是通过记录每个epoch（或者迭代步数）的loss值，并将其以图形化的方式展现出来，以便我们更好地理解和分析模型的训练过程。

【mAP0.5】
mAP0.5，也被称为mAP@0.5或AP50，指的是当Intersection over Union（IoU）阈值为0.5时的平均精度（mean Average Precision）。IoU是一个用于衡量预测边界框与真实边界框之间重叠程度的指标，其值范围在0到1之间。当IoU值为0.5时，意味着预测框与真实框至少有50%的重叠部分。
在计算mAP0.5时，首先会为每个类别计算所有图片的AP（Average Precision），然后将所有类别的AP值求平均，得到mAP0.5。AP是Precision-Recall Curve曲线下面的面积，这个面积越大，说明AP的值越大，类别的检测精度就越高。
mAP0.5主要关注模型在IoU阈值为0.5时的性能，当mAP0.5的值很高时，说明算法能够准确检测到物体的位置，并且将其与真实标注框的IoU值超过了阈值0.5。

【mAP0.5:0.95】
mAP0.5:0.95，也被称为mAP@[0.5:0.95]或AP@[0.5:0.95]，表示在IoU阈值从0.5到0.95变化时，取各个阈值对应的mAP的平均值。具体来说，它会在IoU阈值从0.5开始，以0.05为步长，逐步增加到0.95，并在每个阈值下计算mAP，然后将这些mAP值求平均。
这个指标考虑了多个IoU阈值下的平均精度，从而更全面、更准确地评估模型性能。当mAP0.5:0.95的值很高时，说明算法在不同阈值下的检测结果均非常准确，覆盖面广，可以适应不同的场景和应用需求。
对于一些需求比较高的场合，比如安全监控等领域，需要保证高的准确率和召回率，这时mAP0.5:0.95可能更适合作为模型的评价标准。
综上所述，mAP0.5和mAP0.5:0.95都是用于评估目标检测模型性能的重要指标，但它们的关注点有所不同。mAP0.5主要关注模型在IoU阈值为0.5时的性能，而mAP0.5:0.95则考虑了多个IoU阈值下的平均精度，从而更全面、更准确地评估模型性能。

【F1值曲线】
F1值曲线是一种用于评估二分类模型在不同阈值下的性能的可视化工具。它通过绘制不同阈值下的精确率（Precision）、召回率（Recall）和F1分数的关系图来帮助我们理解模型的整体性能。
F1分数是精确率和召回率的调和平均值，它综合考虑了两者的性能指标。F1值曲线可以帮助我们确定在不同精确率和召回率之间找到一个平衡点，以选择最佳的阈值。
绘制F1值曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的精确率、召回率和F1分数。
将每个阈值下的精确率、召回率和F1分数绘制在同一个图表上，形成F1值曲线。
根据F1值曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
F1值曲线通常与接收者操作特征曲线（ROC曲线）一起使用，以帮助评估和比较不同模型的性能。它们提供了更全面的分类器性能分析，可以根据具体应用场景来选择合适的模型和阈值设置。

整体对比分析来看：不难发现四款不同参数量级的模型最终达到的结果层次分明，n系列的模型效果最差，s系列模效果居中，m和l系列的模型最终的效果要更优一些达到了相近的水准，这里综合参数量考虑我们最终选定了m系列的模型来作为线上的推理计算模型。

接下来看下m系列模型的详细情况。

【离线推理实例】

【Batch实例】

【F1值曲线】

【Precision曲线】

【PR曲线】

【Recall曲线】

【训练可视化】

文档布局分析任务的背景意义在于将非结构化的文档转换为结构化的数据，从而实现文档的自动理解和处理。DocLayNet数据集的构建正是为了满足这一需求，提供一个大规模、多样性、高质量的数据集，推动文档布局分析技术的发展和应用。通过使用DocLayNet数据集，我们可以训练和评估文档布局分析模型，开发出更高效、更准确的文档处理系统。感兴趣的话也可以对应开发自己的文档布局分析系统。