论文阅读和分析：Syntax-Aware Network for Handwritten Mathematical Expression Recognition

KPer_Yang

已于 2023-03-24 23:13:03 修改

阅读量637

点赞数

分类专栏：机器学习文章标签：论文阅读机器学习人工智能

于 2023-03-08 22:54:36 首次发布

本文链接：https://blog.csdn.net/KPer_Yang/article/details/129413599

版权

机器学习专栏收录该内容

87 篇文章 18 订阅

订阅专栏

HMER论文系列
1、论文阅读和分析：When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客
2、论文阅读和分析：Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
3、论文阅读和分析：A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博客-CSDN博客
4、论文阅读和分析：Watch, attend and parse An end-to-end neural network based approach to HMER_KPer_Yang的博客-CSDN博客
5、论文阅读和分析：Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
6、论文阅读和分析：Mathematical formula recognition using graph grammar_KPer_Yang的博客-CSDN博客
7、论文阅读和分析：Hybrid Mathematical Symbol Recognition using Support Vector Machines_KPer_Yang的博客-CSDN博客
8、论文阅读和分析：HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES_KPer_Yang的博客-CSDN博客

论文阅读：Syntax-Aware Network for Handwritten Mathematical Expression Recognition¹

主要观点：

1、提出将语法信息纳入编码器-解码器网络的方法。使用一组语法规则，用于将每个表达式的LaTeX标记序列转换为解析树；用深度神经网络将标记序列预测建模为树遍历过程。

2、该方法可以有效地描述表达式的语法上下文，减小HMER的结构预测误差。和现有的WAP和WAP-TD相比，考虑语法规则。

在这里插入图片描述

Figure 1. Comparison of different architectures: (a) An encoder-decoder framework WAP (b) A tree decoder DWAP-TD © Our model Syntax-Aware Network (SAN)

算法原理：

基本规则

1)遵循标准的阅读顺序:从左到右，从上到下。

2)利用相邻符号之间的空间关系。对于一对相邻的HME符号，总共有九种可能的关系(左、右、上、下、左下、右下、左上、右上、内)。由于约束1)，我们去掉了“左”和“下左”，保留了其余7种关系来处理我们实现中所有的MEs情况。尽管ME可能对应于不同的LaTeX序列，但由于这两个约束，语法规则生成的语法树是相同的。

数学描述

算法由元组表示：
$G=(N,\Sigma,R,S,{\Gamma},C,D),$
$N$ ：非终止符，包括起始符 $S$ 和拓展符 $E$ ；

$\Sigma$ ：终止符；

$R$ ：产生式规则；

${\Gamma}$ ：关系；

$C$ ：编码器；

$D$ ：解码器；

产生式规则

产生式规则可以表示成：
$\alpha\rightarrow\beta, \\ \alpha\in {N},\beta\in(\Gamma\cup N\cup\Sigma)^{*}.$
asterisk: represents the Kleene star operation²

$R$ 有两条生成规则：

规则1： $S$ 可以在后面产生任意的终止符；或者 $E$ 扩展符；或者空字符 $\epsilon$
$S\rightarrow\sigma S|E|\epsilon,$
$\sigma$ ： $\sigma\in\Sigma$ ；

$∣$ ：任选的意思；

规则2： $E$ 为每种类型的关系产生字符串，然后拼接起来；字符串后面可以跟 $S$ 或者空字符串；
$E\to[((\gamma_1)S|\epsilon),\ldots,((\gamma_7)S|\epsilon)],\quad\text{}$
$\gamma_i\in\Gamma$ ：在关系中的第 $i$ 种；

表达规则图示

图3示出了具有产生式规则的表达式的可能解析过程。为了直观地理解这些规则，可以把S看成一个表达式，把E看成一个可扩展的结构。假设一个表达式可以包含多个可扩展结构，而每个可扩展结构可以扩展为多个具有空间关系的表达式。此外，产生式规则与以输入图像和父节点的上下文状态为条件的概率相关。具体来说，条件概率定义为：
$p(\alpha\rightarrow\beta|c(\alpha),X)=D_{\alpha\rightarrow\beta}(c(\alpha),E(X)),$
$X$ :输入图像；

$E (X)$ ：编码器的输出；

$c (α)$ 是 $α$ 的上下文状态(将在第3.2节中详细介绍)， $D α \to β (\cdot)$ 是对应于产生式规则的解码器的输出；

在这里插入图片描述

Figure 3. (a) A possible parsing procedure of $\sum_{i}^{n}a$ and (b) the parse tree. In the figure, the strings refer to non-terminal symbols in blue, terminal symbols in red, relations in yellow, and empty in grey.

基本流程

在这里插入图片描述

如算法1所示，给定SAN参数和输入图像，使用堆栈实现树遍历。具体来说，所实现的栈可以保证训练过程按照语法树的遍历顺序进行。同样，预测过程也是通过逐步堆叠来实现的。编码器获取输入图像并对其进行下采样。然后根据语法规则，确定表达式及其可扩展结构;同时，解码器计算并选择概率最高的产生式规则。因此，生成具有可扩展结构的新表达式，并更新LaTeX序列中图像的解析树。一旦找到解析树，就可以通过预先顺序遍历树来获得识别结果。

符号感知解码器

在这里插入图片描述

Figure 4. Syntax-Aware Decoder: Consisting of GRU-α, GRU-β, and the Syntax-Aware Attention Module

损失函数：
$\mathcal L=\mathcal L_{symbol}+\mathcal L_{relation}+\mathcal L_{symbol}^{rev}+\mathcal L_{reg}.$

实验结论：

评价方法：

表达式识别率(ExpRate)是数学表达式识别中广泛使用的一种识别协议，定义为预测的数学表达式准确匹配标准答案的百分比。ExpRate≤1和≤2表示表达式识别率最多可容忍一个或两个符号级错误。

在公开数据集CROHME上：

在这里插入图片描述

在HME100k上：

在这里插入图片描述

参考：

KPer_Yang

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读和分析：Syntax-Aware Network for Handwritten Mathematical Expression Recognition

论文阅读：Syntax-Aware Network for Handwritten Mathematical Expression Recognition
复制链接

扫一扫