[论文阅读笔记04]GFTE:Graph-based Financial Table Extraction

一,题目

GFTE:Graph-based Financial Table Extraction 【GFTE:基于图方法的财务表格抽取】

二,作者

Yiren Li∗, Zheng Huang†, Junchi Yan‡, Yi Zhou§, Fan Ye¶ and Xianhui Liuk
Shanghai Jiao Tong University,China Financial Fraud Research Center

三,解决问题[问题前景]

  1. 当前的工具对财务表格数据抽取不理想,从而提出一个对于财务表格的场景提出一个方法。如下的不理想。
    在这里插入图片描述

  2. 数据集的提出的出发点,目前的财务表格数据不完整与不标准;另外,数据也缺乏多样性。

四,主要贡献

  1. 开放表格数据集FinTab;
  2. 基于FinTab之上提出基于图卷积神经网络模型GFTE;

五、FinTab数集

在这个数据集中,我们总共收集了19个PDF文件,包含1600多个表,一共119 021 个单元格,合并单元格为2859个,占2.4%。所有的文档加起来有3329页,其中有2522个包含表格,具体文献分类如表二所示:
在这里插入图片描述

也包括了一些比较特殊的表格:semi-ruled table, cross-page table, table with merged cells, multi-line header table。对于跨页表,完全表格式,单元格合并等相关维度的统计为:
在这里插入图片描述

六,模型

模型流程:
在这里插入图片描述

建立其真实标签(这里还得借用OCR的识别来处理),其中包括
1.1 表格区域的图片;【表格检测任务—这个真实标签有】
1.2. 文本内容;----【文字识别任务—这个真实标签有】
1.3. 文本位置;----【文字目标检测任务—这个真实标签有】
1.4. 结构标签;----【行与列—这个真实标签有】
然后,我们在单元格上构建无向图G = <V,RC>。
最后,我们使用基于GCN的算法来预测相邻关系,包括垂直和水平关系。
表结构的图建模:
将表中的每个单元格视为节点;节点与邻居之间的垂直或水平关系理解为边的特征;用N表示节点集,用Ec表示全连接的边,则表结构可以用图G = <V,Rc>表示,其中Rc表示Ec之间的一组关系。Rc = Ec×{vertical, horizontal, unrelated}。最后问题定义为:给定一组节点N及其特征,我们的目标是尽可能精确地预测节点对之间的关系Rc。
GFTE模型:
图的构建是基础于真实标签数据来构建的。
节点信息(文本内容,绝对位置和图像), 利用结构关系来构建真实标签(这个是训练集);分别训练水平与垂直的关系。
在这里插入图片描述

结果
GFTE-pos:GFTE-pos进行训练,即使用相对位置和KNN算法生成图形,只训练具有位置特征的GFTE;
GFTE pos+text: 在GFTE-pos的基础上,利用LSTM获取的文本特征和位置特征对网络进行训练。
GFTE: 在post+text的基础上,在网格采样的基础上,进一步引入图像特征,对所提出的GFTE进行训练。
加入文本特征,水平预测提高了10%,垂直预测提高了5%。进一步包括图像功能似乎有助于提高性能一点,但不是太多。
在这里插入图片描述

另外一个实验:SciTSR作为验证集,FinTAb作为测试集;
在这里插入图片描述
总结:
垂直预测比水平预测有更高的精度;
加入图像信息上升的幅度不高;
这个模型具有高的强壮性;
整体来看,这篇文章最后的实验感觉没有写完整,后面写得是比较仓促的。可能完整的还得通过看代码。还未发现哪里可以找到FinTab数据在哪里可以找到。

附-基它table的数据集

在这里插入图片描述

附-其它表格处理方法

常规方法分两步:1.表格检测;2. 表格分解;
总结三种方法:

  1. Predefifined layout-based approaches[基于表格布局的预定义方法],通过设计可能的表格模板去处理。缺点很明显,这种方法只能处理预设定的表格。
  2. Heuristic-based approaches[基于启发式的方法];设定一系列的规则去检测与识别表格。
  3. Statistical or optimization-based approaches[基于统计或优化方法];通过训练统计模型来实现。例如概率模型,Naive Bayes classififier,decision trees,Support Vector Machine,Conditional
    Random Fields,graph neural network,attention module等等。

参考

【1】GFTE:Graph-based Financial Table Extraction,http://arxiv.org/abs/2003.07560v1
【2】GFTE, https://github.com/Irene323/GFTE
GFTE:Graph-based Financial Table Extraction,https://blog.csdn.net/bigdreamerxz/article/details/106382771
happyprince https://blog.csdn.net/ld326/article/details/111667740

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值