KIE - Graph Convolution Network

论文原文:Graph Convolution for Multimodal Information Extraction from Visually Rich Documents

GCN网络由图卷机+BiLSTM+CRF组成。
GCN算法流程
node的节点信息是一个三元组。其中包括两个节点信息 t i t_i ti t j t_j tj 和二者之间的位置关系 r i j r_{ij} rij 。对于单独的节点,使用单层的BiLSTM提取特征。对于位置关系 r i j r_{ij} rij使用如下公式:
在这里插入图片描述

其中 x i j x_{ij} xij y i j y_{ij} yij表示节点i和j之间的水平距离和垂直距离。w,h代表文本框的高度和宽度。

对每个节点 t i t_i ti ,通过一个MLP提取其与第j个邻居的信息 h i j h_{ij} hij在这里插入图片描述
随后用attention的思想编码 t i t_i ti
在这里插入图片描述

随后将graph embedding与token embedding结合起来,并将它们输入到标准的BiLSTM-CRF中进行实体提取。
在这里插入图片描述
其中的graph embedding就是上文说的 t i ′ t_i' ti,token embedding用Word2Vec获得,最后二者concat起来。
在这里插入图片描述
模型训练:

1.标注的时候使用IOB标记

2.在实验中,图的卷积层和BiLSTM-CRF提取器是联合训练的。

3.此外,为了提高预测精度,添加了对每个文本段进行段落分类任务。

4.多任务的损失函数使用了《Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》,其中包含了极大似然对损失函数的数学推导,值得一看。

5.模型使用两个真实的数据集进行信息提取。它们是价值附加税发票(VATI)和国际采购收据(IPR)。精度如下:
在这里插入图片描述
实验表明,基于图卷积的模型在baseline的基础上都有明显提升,其 中在仅依靠文本信息就可以抽取的字段(如日期)上与baseline持平,而在需要依靠视觉信息 做判断的字段(如价格、税额)上有较大提升。可以看出,GCN中视觉信息起到了主要作用,文本信息对视觉信息起到一定的辅助作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值