KIE - Graph Convolution Network

阿飞大魔王

已于 2022-09-12 12:54:53 修改

阅读量657

点赞数

分类专栏： KIE 文章标签：深度学习人工智能机器学习

于 2022-09-12 10:45:34 首次发布

本文链接：https://blog.csdn.net/lucifer_24/article/details/126814287

版权

KIE 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文原文：Graph Convolution for Multimodal Information Extraction from Visually Rich Documents

GCN网络由图卷机+BiLSTM+CRF组成。
GCN算法流程
node的节点信息是一个三元组。其中包括两个节点信息 $t_i$ ， $t_j$ 和二者之间的位置关系 $r_{ij}$ 。对于单独的节点，使用单层的BiLSTM提取特征。对于位置关系 $r_{ij}$ 使用如下公式：
在这里插入图片描述

其中 $x_{ij}$ 和 $y_{ij}$ 表示节点i和j之间的水平距离和垂直距离。w，h代表文本框的高度和宽度。

对每个节点 $t_i$ ，通过一个MLP提取其与第j个邻居的信息 $h_{ij}$ 在这里插入图片描述
随后用attention的思想编码 $t_i$ ：

随后将graph embedding与token embedding结合起来，并将它们输入到标准的BiLSTM-CRF中进行实体提取。
在这里插入图片描述
其中的graph embedding就是上文说的 $t_i'$ ，token embedding用Word2Vec获得，最后二者concat起来。

模型训练：

1.标注的时候使用IOB标记

2.在实验中，图的卷积层和BiLSTM-CRF提取器是联合训练的。

3.此外，为了提高预测精度，添加了对每个文本段进行段落分类任务。

4.多任务的损失函数使用了《Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》，其中包含了极大似然对损失函数的数学推导，值得一看。

5.模型使用两个真实的数据集进行信息提取。它们是价值附加税发票(VATI)和国际采购收据(IPR)。精度如下：
在这里插入图片描述
实验表明，基于图卷积的模型在baseline的基础上都有明显提升，其中在仅依靠文本信息就可以抽取的字段（如日期）上与baseline持平，而在需要依靠视觉信息做判断的字段（如价格、税额）上有较大提升。可以看出，GCN中视觉信息起到了主要作用，文本信息对视觉信息起到一定的辅助作用。