sdmgr

最新推荐文章于 2024-03-08 10:24:57 发布

cc_moe

最新推荐文章于 2024-03-08 10:24:57 发布

阅读量1.4k

点赞数

分类专栏：神经网络文章标签： ocr

本文链接：https://blog.csdn.net/qq_25678319/article/details/118708982

版权

神经网络专栏收录该内容

4 篇文章 0 订阅

订阅专栏

sdmgr

论文关键字

Key information extraction

Document images

Graph reasoning

Dual modality

Approach

给定一幅大小为H×W的文档图像I，以及检测到的文本区域{ri}，其中ri=< xi, yi, hi, wi, si>。 (xi, yi)， hi, wi, si，分别为为左上角坐标，为ri的高度，宽度，识别出的文本字符串。关键信息提取的目的是将每个检测到的文本区域ri分类为预定义的类别集y中的一个。SDMG-R将关键信息提取建模为图节点分类问题，通过联合充分利用双模特征。即视觉特征和文本特征。本文提出的空间双模图推理模型由双模融合模块、图推理模块和分类模块组成。图2显示了它的总体架构。

A.双模融合模块

给定一幅文本区域为{ri}的图像，我们通过双模态融合模块学习特征向量ni∈ $R^{Dn}$ 来表示每个文本区域ri。设计了双模态融合模块，以有效地学习和组合视觉特征和文本特征。在CNN特征抽取器最后一层的输出特征图上，我们通过RoI Pooling带有它的矩形（xi，yi，hi，wi）来为ri提取视觉特征vi∈ $R^{Dv}$ 。在我们的实验中，使用UNet实例化CNN特征提取器。此外，我们通过设计字符级BiLSTM来提取文本特征。我们首先将si中的每个字符表示为一个 one-hot 向量 $e_{j}^{i}\epsilon R^{Dc}$ ，维数 $D_{c}$ 。然后将 $e_{i}^{j}$ 投影到低维空间中，并最终顺序地输入Bi-LSTM模块，以获得文本区域ri的文本表示 $t_{i}\epsilon D^{t}$ 。

(1)

$W_{s}\varepsilon R^{Ds*Dc}$ 是文本one-hot向量的投影矩阵。我们通过建模所有可能的视觉和文本特征维度对之间的相互作用来融合视觉特征和文本特征。，这些维度对通过Kronecker product很容易得到，如下:

(2)

⊗是Kronecker product操作。 $P\epsilon R^{Dn*(Dv*Dt)}$ 是一个可学习的线性变换， $n_{i}\epsilon R^{Dn}$ 是融合特征。为简单起见，我们在论文中忽略了偏差项。式(2)中可学习参数的数量随视觉特征的维数、文本特征的维数和融合表示的维数线性增长，这导致了沉重的内存和计算开销。为了减少存储和计算复杂度，我们首先将式(2)重新表述为张量形式:：

(3)

$T\epsilon R^{Dt*Dv*Dn}$ 通过reshape式(2)中P得到的一个张量，Xj表示mode-j乘。然后引入块张量分解[36]，分解T如下:

(4)

式中 $C_{b}\epsilon R^{D_{t}^{b}R*D_{v}^{b}R*D_{n}^{b}R}$ 是块对角核张量，R是块数， $D_{t}^{b}*D_{v}^{b}*D_{n}^{b}$ 为块大小， $P_{t}\varepsilon R^{D_{t}*D_{t}^{b}R}$

, $P_{v}\epsilon R^{D_{v}*D_{v}^{b}R}$ , $P_{n}\epsilon R^{D_{n}^{b}R*D_{n}}$ 。通常设 $D_{t}<<D_{t}^{b}$ ， $D_{v}>>D_{v}^{b}$ ， $D_{n}>>D_{n}^{b}$ ，R是小常数。因此，式(4)中分解后的张量的参数大大小于式(3)中原始张量的参数，正如我们的实验所示

我们也在实验中实现了不同的融合方案进行比较。LinearSum：视觉特征xv和文本特征xt通过一个三层MLP线性投影到一个公共空间 $R^{D_{n}}$ ，然后按元素顺序加入作为融合表示ni。ConcatMLP：视觉特征xv和文本特征xt被concat，然后是一个三层MLP。

B. 图形推理模块（糅合融合特征N和框间空间信息E）

我们将文档图像建模为图G = (N, E)，其中N = {ni}，ni为文本节点ri的特征向量， E = {eij}， eij为节点ri与节点rj之间的边权值。我们通过一种动态注意机制对ri和rj之间的空间关系eij∈R进行编码。首先定义节点ri和rj的空间关系如下：（rij：计算距离和形状的特征）

其中，∆xij，∆yij分别为两个文本框ri和rj之间的水平距离和垂直距离。d是一个归一化常数，||是concat运算。两个文本框之间的空间位置关系在关键信息提取中起着至关重要的作用。 $r_{ij}^{P}$ 编码节点ri和rj之间的相对空间位置距离。式(8)中的第一项和后两项分别编码ri的高宽比和相对形状信息。

受[37]的启发，我们将文本框之间的空间信息嵌入到边缘权重eij∈E中，如下:

其中 $E\epsilon R^{D_{e}*5}$ 是一个将空间关系信息rij嵌入到去维表示的线性变换。 $N_{l2}$ 是 $l_{2}$ 归一化操作，引入它是为了稳定训练过程。 $e_{ij}\epsilon R^{D_{e}+2*D_{n}}$ 是ni，nj的concat表示和归一化空间关系嵌入。M是一个将eij变换成标量eij的MLP。

Graph reasoning. 我们对所提空间双模图的特征{ni}进行L次迭代细化：

其中， $n_{i}^{l}\epsilon R^{D_{n}}$ 表示 $i^{th}$ 图节点在时间步长 $l$ 的特征。 $\alpha _{ij}^{l}$ 为在时间步长 $l$ 的归一化图边权值。 $W^{l}\epsilon R^{D_{n}*(D_{e}+2D_{n}))}$ 是时间步长 $l$ 时的线性变换， $e_{ij}^{l}$ 是 $n_{i}^{l}$ 、 $n_{j}^{l}$ 在时间步长 $l$ 的concat表示以及在时间步长 l 处嵌入的归一化空间关系，如式(11)所示。σ是ReLU的非线性活化。
$\alpha _{ij}^{l}$ 是时间步长 $l$ 时，节点i和j之间的可学习归一化边权值，计算方式：

由式(14)，所提图的边权值G在从一个迭代到另一个迭代的推理过程中动态地改变。

C. Loss

迭代推理模块的最终输出 $n^{L}$ 传给分类模块，对每个文本区域进行分类，将每个文本区域分类为关键信息类别之一。形式上，我们的损失被定义为

其中yi∈Y为关键信息类别ground truth。

IV.WildReceipt

A.数据收集

我们选择收据作为基准关键信息提取，原因如下:(1)收据是匿名的，适合公开发布，不泄露私人信息。(2)发票的模板不同，不同的公司通常有不同的模板。因此，该方法适用于不可见模板的文档图像的关键信息提取评估;(3)收据易于获取和收集;(4)从收据中提取关键信息有许多应用，如记账、报销等。

我们在下面的过程中收集并注释了WildReceipt。

数据收集。我们用相关的关键词在搜索引擎上搜索收据图片，如收据、发票等。我们下载了大约4300张文档图片。
数据清洗。我们删除了里面有多个收据的图像，不是收据，不可读，不完整，或非英语。
数据注释。我们首先标记文本边界框及其对应文本，然后将每个边界框标记为25个关键信息类别中的一个(见图3)。这些标注由6位专家完成。

我们在WildReceipt中选择的收据图像是在野外捕获的。它们是非前视图，可能具有如图3所示的折叠。因此，WildReceipt比以前只关注扫描文档的关键信息提取基准测试更具挑战性。

B.统计

WildReceipt数据集由1740张收据图像组成，68975个文本边框。每张图片平均有39个文本边框。表3列出了所有25个关键信息类别的注释编号。25个关键信息分类中，12个分类为关键信息，12个分类为关键信息对应的值，1个分类为其他信息。由于一种类型的键有很多变体，例如“Address”, “address”, and “Add.”都表示关键类别" Str addr key "。我们认为准确识别关键类别对关键信息提取有很大的帮助，这在实验中得到了验证。WildReceipt在图片数量和类别数量上分别是SROIE[7]的2倍和3倍。此外，它还包含细粒度的关键信息类别。例如，“产品价格价值”、“税收价值”、“小费价值”和“总价值”都与金额有关，如果没有上下文信息，很难凭其本身的文字或视觉特征来区分彼此。

C.评估方案

我们随机抽取1268张图像进行训练，472张图像进行测试。在采样过程中，根据存储名称和近复制图像检索(near-duplicated image retrieval)[38]，我们确保这两个集合具有不同的模板。这样，测试集中的模板在训练集中是看不到的。因此，WildReceipt适用于从未见模板的文档图像中提取关键信息。表4列出了WildReceipt中训练集和测试集的统计信息。

WildReceipt上的性能通过F1评分进行评估。最后报告了12个价值类别的F1平均得分。

V. 实验

在本节中，我们将根据SROIE和WildReceipt对所提议的SDMG-R方法进行广泛的评估。我们首先介绍实现细节。然后，将SDMG-R与现有的关键信息提取方法进行了定量比较。最后，我们通过消融研究来探讨我们所提出的方法的每个组成部分的有效性。

A.实现细节

我们的实现是基于PyTorch的。我们的模型是在1个NVIDIA Titan X gpu和12gb内存上训练的。
在训练期间，我们以0.5的概率随机裁剪图像，同时保持所有文本框不被剪切。在测试期间，我们不裁剪图像。在训练和测试中，所有图像的大小都调整为512 × 512，它们的文本框在输入到网络之前按比例调整大小。使用Adam优化器，用PyTorch的默认初始值从头开始训练整个网络。在训练时，batch size=4。最大epoch=60，学习率= $10^{-3}$ 。在40和50个epoch后下降了10倍。

我们的字典的基数是91(即 $D_{c}$ = 91)。它由0-9个数字、a-z和A-Z字母以及与关键信息类别密切相关的特殊字符组：

文本中的所有其他字符都被设置为一个token“unknown”。one-hot字符编码向量被投影到32维空间(即， $D_{s}$ = 32)。设置Bi-LSTM的隐向量的维数为256。对于视觉模态，我们采用U-Net作为视觉特征提取器，在其最后的卷积输出特征图上提取视觉特征，然后降维到256。因此，Dv = 256。在分块张量分解模块中，我们设 $D_{t}^{b}=D_{v}^{b}=D_{n}^{b}=52$ ，R=20，我们将图节点特征表示维数设为256(即Dn = 256)。在式（7）中，将归一化常数设为10（即，d＝10）。将5维边缘特征嵌入到一个256维空间中（即De=256）。MLP（等式(12)中的M）是一层和两层之间有一个ReLU。它的隐藏维度是256。除另有说明外，图推理迭代次数设为2(即L = 2)。

B.与最新方法的比较

我们将我们提出的SDMG-R与两种最先进的方法及其变体进行了比较。我们特别评估了以下方法:

Chargrid[13]。它将文档建模为字符的二维网格，这些网格被输入一个全卷积神经网络来预测分割掩码。
Chargrid-UNet。为了公平比较，我们也使用U-Net作为Chargrid的骨干，而保持其他不变。
我们将这个设置命名为Chargrid-UNet。
VRD[15]。它将文本边界框建模为图形，然后将其输入一个CRF。

我们将我们提出的方法与表V中相应的方法进行了比较。结果表明，我们的SDMG-R优于所有的竞争对手。具体来说，与Chargrid、Chargrid- unet和VRD相比，SDMGR在WildReceipt上12个价值类别的平均F1score上分别实现了11.8%、9.7%和3.0%的绝对提升。此外，SDMG-R在12个类别中有10个获得了最好的F1score。我们的SDMG-R大大优于Chargrid-UNet。我们认为这是因为通过图学习的文本之间存在长期的依赖关系。与VRD算法相比，SDMG-R算法的性能提升主要归功于我们提出的基于U-Net的视觉模态和Kronecker product的模态融合算法。对于“Time”和“Prod
qty”这两个类别，我们提出的SDMG-R和VRD具有可比性。

在实际应用中，文本框和文本通常是由OCR引擎获取的，这可能会导致文本检测和识别错误。为了评估这些错误如何影响关键信息提取的性能，我们使用了谷歌OCR API来检测和识别
WildReceipt的文本。

（1）对于每个检测到的文本框，我们将其关键信息类别标记为最大IOU的ground truth文本区域的关键信息类别。当使用OCR引擎识别文本时，我们将我们的SDMG-R与最先进的方法进行比较，给出表VI中的ground truth文本框。再次，我们提出的SDMG-R获得了最好的平均F1score。此外，它在12个类别中有10个明显优于竞争对手。对比表V和表VI，我们观察到，如果文本被OCR引擎识别，在平均F1得分方面有大约6.3%的性能下降(88.7% vs . 82.4%)。这是合理的，因为一些文本，特别是与某些特定的关键信息类别（如）密切相关的字符，通过OCR引擎被错误识别，从而导致噪声信号和差的表征。

（2）为了继续前进，在表VII中OCR引擎预测文本框和文本的情况下，我们将我们的方法与其他方法进行比较。研究表明，相比Chargird, Chargird- unet和VRD，我们提出的SDMG-R具有更好的性能。注意，检测到的文本框和ground truth boxes之间存在不匹配。例如，一个检测到的文本框可能与多ground truth的文本框重叠，或者一个ground truth的文本框可能与多个检测到的文本框重叠。直接将文本框与具有最大IOU的真实文本框匹配可能会引入噪声信号，从而导致进一步的性能下降。然而，我们的方法仍然优于其他方法，这验证了它对噪声的鲁棒性。

我们还将我们的方法与表VIII中数据集SROIE上的其他最新方法进行了比较。与WildReceipt类似，我们的SDMG-R的性能明显优于其他方法。特别地，较于Chargrid, Chargrid- unet和VRD，SDMG-R的F1scores分别提高了6.2%，6.3%和2.2%。它证明了我们的SDMGR对扫描文档图像的优越性。

C.消融实验

我们在WildReceipt上进行详细的消融研究，以调查我们提出的每个成分的有效性。

视觉和文字特征的效果. 在表IX中，在没有文本特征的情况下，SDMG-R在F1得分方面绝对下降了8.6%。同样，在没有视觉特征的情况下，绝对下降了2.3%。研究表明，文本特征和视觉特征，尤其是文本特征，对关键信息的提取起着重要的作用。

[36]Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition

循环神经网络（RNN）是一种强大的序列建模工具。然而，在处理高维输入时，RNN 的训练会因为大量模型参数而变得非常耗费计算资源。这会让 RNN 难以处理很多重要的计算机视觉任务（如视频中的动作识别和图像字幕）。为了解决这一问题，我们提出了一种紧凑而灵活的新结构，它被称为 Block-Term 张量分解，它极大地减少了 RNN 的参数，并提高了训练效率。与其他低秩逼近方法，如 tensor-train RNN（TT-RNN）等相比，我们的方法（BT-RNN）不仅更加简洁（在同秩时），而且能以更少的参数获得原始 RNN 的更好逼近。BT-RNN 在三个具有挑战性的任务中，包括视频中的动作识别、图像字幕和图像生成上的预测精度和收敛速度均超过了 TT-RNN 和标准 RNN。其中，在 UCF11 数据集上进行动作识别任务时，BT-LSTM 的参数数量要比常规 LSTM 少 17,388 倍，同时准确率提升了超过 15.6%。

参考：https://bbs.cvmart.net/articles/988