论文原文:Graph Convolution for Multimodal Information Extraction from Visually Rich Documents
GCN网络由图卷机+BiLSTM+CRF组成。
node的节点信息是一个三元组。其中包括两个节点信息
t
i
t_i
ti ,
t
j
t_j
tj 和二者之间的位置关系
r
i
j
r_{ij}
rij 。对于单独的节点,使用单层的BiLSTM提取特征。对于位置关系
r
i
j
r_{ij}
rij使用如下公式:
其中 x i j x_{ij} xij和 y i j y_{ij} yij表示节点i和j之间的水平距离和垂直距离。w,h代表文本框的高度和宽度。
对每个节点
t
i
t_i
ti ,通过一个MLP提取其与第j个邻居的信息
h
i
j
h_{ij}
hij
随后用attention的思想编码
t
i
t_i
ti :
随后将graph embedding与token embedding结合起来,并将它们输入到标准的BiLSTM-CRF中进行实体提取。
其中的graph embedding就是上文说的
t
i
′
t_i'
ti′,token embedding用Word2Vec获得,最后二者concat起来。
模型训练:
1.标注的时候使用IOB标记
2.在实验中,图的卷积层和BiLSTM-CRF提取器是联合训练的。
3.此外,为了提高预测精度,添加了对每个文本段进行段落分类任务。
4.多任务的损失函数使用了《Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》,其中包含了极大似然对损失函数的数学推导,值得一看。
5.模型使用两个真实的数据集进行信息提取。它们是价值附加税发票(VATI)和国际采购收据(IPR)。精度如下:
实验表明,基于图卷积的模型在baseline的基础上都有明显提升,其 中在仅依靠文本信息就可以抽取的字段(如日期)上与baseline持平,而在需要依靠视觉信息 做判断的字段(如价格、税额)上有较大提升。可以看出,GCN中视觉信息起到了主要作用,文本信息对视觉信息起到一定的辅助作用。