OG-HFYOLO:当梯度方向引导遇见异构特征融合,变形表格分割难题迎刃而解

目录

摘要

引言

相关工作

表格单元格空间坐标定位

现有数据集

YOLO框架的实例分割改进

Coovally平台助力:从实验到应用一站式打通

方法

整体架构

梯度方向感知提取器

异构内核交叉融合

损失函数优化

实验结果

定量结果

定性分析

消融研究

结论


在信息日益数字化的时代,表格作为结构化数据的核心载体,广泛承载着财务报表、教育学习、科学实验数据等关键信息。同时,随着扫描、摄影等技术的普及,表格电子文档的场景日趋复杂。尤其在光照条件、拍摄角度和场景环境复杂多变的情况下,扫描或拍摄的表格图像可能出现各类形变。这些物理形变(如弯曲、透视畸变、折叠)为表格结构识别技术带来巨大挑战。

论文题目:

OG-HFYOLO :ORIENTATION GRADIENT GUIDANCE AND HETEROGENEOUS FEATURE FUSION FOR DEFORMATION TABLE CELL INSTANCE SEGMENTATION

论文链接:

https://arxiv.org/pdf/2504.20682

代码:

https://github.com/justliulong/OGHFYOLO


摘要

表格结构识别是文档分析中的关键任务。然而,变形表格中的几何形变会导致内容信息与结构之间关联性弱化,致使下游任务无法获取准确的内容信息。为获得细粒度的单元格空间坐标,我们提出OG-HFYOLO模型:通过梯度方向感知提取器增强边缘响应,结合异构核交叉融合模块与尺度感知损失函数以适应多尺度目标特征,并在后处理中引入掩码驱动的非极大值抑制,替代传统的边界框抑制机制。此外,我们还提出一种数据生成器,填补了细粒度变形表格单元格空间坐标定位数据集的空白,并构建了名为Deformation Wired Table(DWTAL)的大规模数据集。实验表明,该模型在所有主流实例分割模型上均表现出优异的分割精度。


引言

表格结构识别技术旨在从图像中重建表格的行列拓扑与语义信息,通过深度学习已取得显著进展。尽管现有许多端到端模型通过直接生成HTML或LaTeX表格结构序列实现从图像到结构序列的转换,但端到端模型的"黑箱"特性使得中间步骤不可控。相比之下,非端到端策略采用模块化方法,将单元格定位与结构推理解耦,为表格结构识别任务提供了更透明的解决方案,这也催生了单元格空间坐标定位的需求。本研究以获取单元格空间坐标为内容,探索一种能有效提取严重变形表格中单元格空间坐标的方法。

实例分割致力于实现像素级对象分离与语义解析,其方法体现了计算机视觉在精度与效率平衡上的探索。早期研究主要依赖两阶段框架,代表性工作Mask R-CNN通过生成区域提议和特征提取,在复杂场景中实现高精度掩膜预测。但此类方法因多阶段计算过程固有延迟难以满足实时应用需求。随着单阶段方法兴起,研究者摒弃区域提议机制,转为通过对全局特征图的密集预测直接生成对象位置与掩膜。然而单阶段模型在对象轮廓复杂度和密集对象区分方面仍面临重大挑战,需通过特征表达机制创新实现精度突破。

本研究主要贡献可总结如下:

• 针对变形表格中密集排列单元格导致的目标遗漏问题,提出增强边界判别能力的梯度方向感知提取器(GOE)。GOE融合梯度强度与方向双线索:特征提取时通过方向滤波器解耦图像梯度场,量化边缘区域强度分布,防止传统卷积核沿边缘的各向同性扩散;同时设计方向感知注意力机制,将梯度方向编码为通道分量,引导网络深层关注形变边界的判别性区域。我们还为特征融合阶段提出异构核交叉融合(HKCF)模块,通过异构核选择协议(HKSP)动态适配多尺度目标的特征表示,并行部署非对称卷积核。结合跨层特征交互机制,HKCF显式捕获横向宽单元格与纵向窄单元格的差异化空间模式。

• 进一步设计尺度感知损失函数,根据目标尺度自适应分配权重,增强模型对小尺寸变形单元格的敏感性,同时抑制大目标的特征冗余。此外,为防止后处理过程中因变形单元格形状复杂和密集排列导致有效单元格被误抑制,摒弃传统基于边界框的非极大值抑制(NMS),引入掩码驱动的NMS后处理操作。

• 针对细粒度标注变形表格数据集稀缺问题,设计可扩展现有数据集的数据生成器。首先从可用数据集中筛选轻度变形表格,将其标签转化为细粒度分割标注,再通过生成器处理得到两个不同难度与规模的子集:DWTAL-s与DWTAL-l。


相关工作

  • 表格单元格空间坐标定位

作为表格结构识别的上游任务,表格单元格空间坐标定位对后续表格结构识别与解析任务至关重要。针对单元格定位问题,研究者们提出了多种解决方案。例如Prasad等人提出的CascadeTabNet将表格中的文本框作为目标,将文本框检测建模为实例分割任务。该模型基于Cascade Mask R-CNN框架,提取文本框掩码。这是实例分割算法在表格结构识别中的首次应用,但其实验仅针对非变形表格,且未深入讨论空白单元格对下游任务的影响。

Qiao Liang等人延续相似思路开发了LGPMA模型,通过软特征金字塔整合全局与局部信息,同样采用实例分割进行文本框检测。不同于CascadeTabNet,LGPMA专门设计了空白单元格搜索算法。遗憾的是,该模型也未在变形表格上进行评估。针对变形表格的空间坐标提取,Cycle-CenterNet提出基于轮廓角点的目标检测方法,通过检测单元格中心点来预测四个轮廓点。虽然推动了变形表格识别进展,但该方法存在局限:严重边界弯曲会大幅增加角点回归难度,且使用粗粒度目标检测框架时可能丢失某些单元格的关键信息。

这些挑战表明需要更细粒度的技术来保留单元格核心信息。基于此需求,本研究将实例分割技术引入变形表格的空间坐标定位,利用其实例分割的像素级精度实现更精细的空间坐标提取,从而更好地应对变形表格结构中单元格定位的挑战。

  • 现有数据集

表格结构识别的发展得益于众多开源数据集推动。早期UNLV和ICDAR-2013等数据集主要为传统方法评估设计,样本量有限(通常不1000张图像)且缺乏表格单元格空间坐标标注。这些局限降低了其对基于深度学习的模块化表格识别流程的适用性。随着深度学习对大数据集的需求增长,Xu Zhong和Minghao Li等研究者相继推出PubTabNet和TableBank等大规模数据集,但这些数据集仅关注使用HTML或LaTeX序列的结构标注,忽视了空间坐标标记。类似地,FinTabNet和SciTSR等大规模数据集虽包含单元格坐标与行列关系,但主要源自PDF或LaTeX导出的结构化数字文档数据,具有高度标准化特征,无法解决变形表格识别问题。

尽管ICDAR-2019尝试通过引入扫描档案文档来填补空白,但其小规模(750张图像)和有限的形变类型仍显不足。专为基于规则算法设计的CamCap数据集仅包含85张变形表格,规模过小难以支持数据驱动的深度学习模型。直至WTW数据集提出,该数据集采集了具有复杂背景和广泛形变的自然场景表格。但WTW采用基于四个轮廓角点的粗粒度空间坐标标注,难以应对严重形变情况。同样面向教育领域的TAL-OCR数据集虽采集自真实拍摄场景包含中度形变,但也缺乏细粒度的实例分割级单元格空间标注。这些数据集均未充分解决严重变形表格结构识别的挑战。

  • YOLO框架的实例分割改进

相比两阶段实例分割模型,基于YOLO的单阶段模型在实例分割任务中展现出速度与精度的平衡优势,吸引了大量研究对YOLO框架进行增强。例如YOLOMask和PR-YOLO将CBAM模块集成到YOLOv5中以降低背景噪声干扰;YOLO-SF[21]同样在YOLOv7中引入CBAM模块提升对小目标特征的敏感性;YOLO-CORE[23]提出通过极坐标距离损失与扇形损失的多阶段约束直接回归轮廓以提升掩膜边界精度;YUSEG[24]将UNet与YOLOv4结合解决密集目标模糊分割问题;TTIS-YOLO通过多尺度高效跨阶段模块、双向跨尺度连接和动态梯度优化提升复杂道路场景实例分割精度;GHA-Inst则通过改进YOLOv7的特征融合与输出层,并引入全局混合注意力(GHA)模块增强关键特征保留,缓解实例遮挡与背景干扰问题。

尽管这些改进面向不同场景,但据我们所知,目前尚未有研究将基于YOLO的分割模型应用于变形表格单元格的空间坐标定位。该任务因目标尺度极端变化、单元格形状复杂和密集排列等特点而具有显著挑战性。


Coovally平台助力:从实验到应用一站式打通

如果你也想要使用模型进行训练或改进,Coovally平台满足你的要求!

Coovally平台还整合了国内外开源社区1000+模型算法各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,无论是学术研究中的小规模探索,还是产业项目中的快速落地,Coovally都能大幅提升开发效率,加速成果转化。

图片

图片

为了满足研发与应用需求,Coovally平台即将推出全新能力:

  • SSH直连Coovally云端算力,无需繁琐配置;
  • 全面支持VS Code、Cursor、windsurf等主流开发工具:实现云端代码实时调试与训练;
  • 支持YOLO、YOLOE、Transformer类模型自由微调与二次开发;
  • 弹性算力资源:根据实验规模灵活扩展,无论是小样本调试还是大规模微调均可应对。

图片

平台链接:https://www.coovally.com

如果你想要另外的模型算法数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!




方法

  • 整体架构

图3展示了OG-HFYOLO的整体架构,它采用类似YOLO的框架,分为三个核心组件:特征提取骨干、特征融合颈部和检测头部。为了加强纹理特征提取,该模型首先将初始下采样特征图输入梯度方向感知提取器(GOE),生成具有丰富纹理信息的特征图。主干采用CSP-Unit模块,每个模块包括3×3下采样卷积、SiLU激活、批量归一化和YOLOv5使用的交叉阶段局部网络(CSP)。通过五次降采样操作,主干网产生了多尺度特征图 P3、P4和P5。

在特征融合过程中,提取的特征通过FPN-PAN 途径进行整合。与标准的 YOLO 实现不同,我们的模型在跳转连接后加入了异构核交叉融合(HKCF)模块,以增强跨尺度客观特征的相互作用。融合后的特征通过 CSP 块进行最终细化处理,然后传送到检测头。检测头保留了 YOLOv5 基于锚点的设计,使用预定义的锚点框执行分类和边界框回归,并使用非最大抑制(NMS)过滤冗余检测。

  • 梯度方向感知提取器

我们认为物体密度是变形表格单元空间坐标定位的主要挑战。如果模型的轮廓提取不准确,就有可能将相邻的小单元合并到错误检测到的大单元中。这种合并会逐渐掩盖特征融合过程中的尺度变化,最终降低预测精度。

在目标密集型场景中,实例分割的准确性受限于模型感知轮廓细节的能力,而关键的挑战在于如何有效地对纹理区域的梯度强度和方向敏感性进行建模。定向梯度直方图(HOG)在这方面提供了重要的启示: 如图 4 所示,HOG 将图像划分为多个网格,将梯度特征分解为每个网格内的梯度方向和梯度强度,并将这些属性汇总为特定方向的直方图。其核心理念在于同时捕捉梯度大小和方向先验,以增强轮廓的几何可辨别性,这一原理直接指导了我们在密集细胞检测中解决轮廓模糊问题的方法。

GOE 采用了相同的理念,重点是使模型能够同时学习轮廓细节的梯度强度和梯度方向特征,从而有效增强其对轮廓复杂、排列密集的目标的识别能力。

图 5 展示了梯度方向感知提取器(GOE)的内部结构。该模块以编码纹理信息的特征图作为输入。GOE 首先使用不同的解耦算子(公式 5)将输入特征图 I 分解为水平梯度方向特征图 Gx 和垂直梯度方向特征图 Gy。为了保留解耦算子 Gx 和 Gy 的方向先验,它们的权重初始化为传统的边缘算子。在训练过程中,放宽内核参数限制,使网络能够根据任务要求(如变形边缘增强、噪声抑制)自适应地调整梯度响应权重,从而克服标准边缘算子固有的几何限制。

卷积神经网络的分层特征学习机制表明,浅层高分辨率特征图在捕捉边缘和纹理等低层次视觉特征方面表现出更强的能力,而深层则更侧重于语义抽象和全局结构建模。基于此,我们在骨干网络的第一个卷积降采样层之后嵌入了梯度方向提取器(GOE),利用其高空间分辨率的特点来精确捕捉方向梯度特征。图 6 展示了 GOE 模块从第二个下采样特征图中进行早期特征提取的效果。通过结合所提出的提取器,网络在早期阶段就为具有色度干扰和模糊细胞轮廓的图像注入了几何先验,从而为后续的跨层特征融合奠定了精细的基础。

  • 异构内核交叉融合

除了密集的目标分布外,表格单元格分割还面临着合并单元格造成的极端尺度多样性带来的挑战:水平合并会产生横跨多列的大跨度目标,而垂直合并则会产生横跨多行的高而窄的目标。这些目标要求模型具备多粒度感知能力。YOLO 系列通过多尺度检测头来解决尺度变化问题,其中高分辨率特征图可检测大型目标,而低分辨率特征图则侧重于小型目标。然而,传统的固定大小卷积核难以适应表格中细胞特征的形态多样性。YOLO-MS提出通过内核多样性来匹配目标多样性,并引入了异构内核选择协议(Heterogeneous Kernel Selection Protocol)(HKSP),受此启发,我们采用 HKSP 概念并结合非对称交叉卷积,设计了异构内核交叉融合(HKCF)模块。如图 7 所示,该模块采用瓶颈结构来降低计算复杂度。输入特征图 Iin 首先通过1×1 卷积进行信道还原,得到低维特征 Fin。

  • 损失函数优化

在基于锚点的实例分割框架中,对象损失Lobj 通常依赖于 “联合相交”(Intersection over Union,IoU)及其变体来测量预测边界框与地面实况边界框之间的几何偏差。然而,传统的 CIoU 损失由于耦合计算高宽比和中心距,对于极端高宽比目标的优化方向模糊不清,导致边界框回归精度降低。为了解决这个问题,我们用 EIoU loss取代了 CIoU,它明确地将宽度和高度优化路径分离开来,从而可以对高宽比敏感目标进行有针对性的梯度方向调整。

对于掩码损失Lmask,YOLO 框架默认采用二进制交叉熵损失 LBCE(公式 11)。此外,为了减轻大面积目标区域对损耗值的影响,YOLO 对 LBCE 内检测到的目标区域进行了简单的归一化处理(公式 12)。

实验结果

  • 定量结果

为验证模型有效性,在DWTAL-s数据集上与主流分割模型对比,包括两阶段模型(Mask R-CNN、Cascade Mask R-CNN)、单阶段模型(SOLOv2、YOLACT)、基于Transformer架构(Mask2Former)及经典YOLO模型(YOLOv5l-seg、YOLOv8l-seg、YOLOv11l-seg)。

如表1所示,OG-HFYOLO模型在DWTAL-s数据集上取得74.23%的mAP@50:95,优于Mask R-CNN(62.5%)和Cascade Mask R-CNN(62.1%)等主流两阶段实例分割模型;相较经典YOLOv8(57.5%)和更先进的YOLOv11(57.8%)分别提升16.73%和16.43%,较最高精度的YOLOv5变体(71.96%)提高2.27%;同时超越基于Transformer的Mask2Former(63.3%)10.93%。参数量方面,引入较大卷积核的异构核交叉融合架构虽轻微增加参数规模,但在当前硬件存储限制下仍可管理。推理速度上,YOLACT为追求极致速度与模型尺寸严重损失精度,而OG-HFYOLO平衡精度与速度,保持单阶段模型应有的速度优势,超越主流两阶段模型及SOLOv2、Mask2Former等单阶段模型。

如表2所示,与其他主流模型相比,所提出的OG-HFYOLO模型在DWTAL-l数据集上同样实现了最先进的分割精度指标,这充分证明了其在不同数据集间具有优异的泛化能力。

  • 定性分析

图8展示不同模型分割结果对比可视化。观察发现,即使如(a)类简单案例,多数主流模型仍存在严重漏检,而本模型在该样本表现与先进Mask2Former相当,并在后续所有测试图像中超越。基于锚点的模型中,YOLOv5漏检率仅次于本方案。但在(d)类场景中,基于边界框的非极大值抑制(NMS)不仅抑制有效单元格,还引发错误重叠检测(见(b)(e))。针对轮廓模糊(f)和多色背景单元格(e),本模型通过GOE模块实现最优检测。尺度变异单元格检测任务(如(b)底部细长单元格),SOLOv2未能准确捕捉尺寸,本模型则保持稳健性能。

图9进一步展示模型在真实拍摄场景和Camcap数据集图像上的分割效果(仅使用DWTAL-l数据训练)。左列为自然场景照片:左上源自WTW数据集真实表格,左下为实际拍摄场景;右侧四图为Camcap样本。结果表明OG-HFYOLO模型仍能获得良好分割效果,充分证明其强泛化能力。

  • 消融研究

随着深度学习发展,检测模型逐步从基于锚点转向无锚点机制以追求更高速度与更小参数量。从YOLOv5开始减少锚点依赖,至YOLOv8无锚点成为标准。对比实验清晰表明:采用无锚点机制的YOLOv8l-seg和YOLOv11l-seg精度显著低于同系列YOLOv5l-seg。为验证锚点机制在当前任务的优势,开展锚点机制消融实验。如表3所示,在两个衍生数据集上,YOLOv5和OG-HFYOLO模型使用锚点机制时所有指标均获得超10%显著提升,凸显锚点机制在本研究场景的有效性。

表4展示本方法在DWTAL-s数据集上的消融结果。梯度方向感知提取器(GOE)用于捕获更丰富纹理信息并缓解密集目标分布导致的检测难题;异构核交叉融合(HKCF)和尺度感知损失解决严重尺度和长宽比变化;MASK-NMS算法优化后处理以应对复杂形状和拥挤实例。衍生数据集的挑战相互关联,单独解决某问题收益有限:例如GOE纹理提取仅部分缓解检测困难,但未解决尺度变化问题,导致mAP@50:95仅提升0.44%;单独集成HKCF和尺度感知损失分别仅提高0.09%和0.48%。但如表4所示,互补模块协同集成带来显著提升——GOE与尺度感知损失结合使mAP@50:95提升1.29%。这些结果证实:各模块单独有效,但协同整合对达成最优性能至关重要。

为阐明未采用YOLOv11更先进主干架构(引入灵活C3k2模块进行特征提取,并在最终阶段集成C2PSA注意力机制以巩固主干特征)的原因,在相同实验设置下对不同主干配置进行消融研究。如表5所示,基准C3架构在两个数据集上均取得最佳性能,优于包含YOLOv11增强组件的变体。实验结果证明直接使用C3模块即可获得最优结果。

结论

为获取变形表格中细粒度单元格空间坐标,我们引入DWTAL数据集。针对该数据集中密集目标分布和极端尺度变化挑战,提出OG-HFYOLO模型实现精确表格单元格实例分割。模型包含多项关键创新:梯度方向感知提取器(GOE)增强密集目标轮廓感知;异构核交叉融合(HKCF)和尺度感知损失缓解严重尺度变化带来的挑战;采用基于掩码的非极大值抑制(MASK-NMS)防止边界框重叠导致的误抑制。

本研究利用实例分割技术获取变形表格单元格精确空间坐标,这是表格结构识别中上游至中游任务。涉及逻辑坐标处理的下游任务可采用LGPMA操作框架,通过系统整合计算机图形学原理与几何拓扑理论优化工作流程。此外,衍生数据集面临的密集目标排列和尺度多样性等挑战在医学细胞分割、遥感图像分析等领域普遍存在,因此所提框架为这些领域应对类似挑战提供了建设性启示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值