mathocr论文翻译(一):When Counting Meets HMER:Counting-Aware Network for HandwrittenMathematical Expressio_when counting meets hmer: counting-aware network f-CSDN博客

本文链接：https://blog.csdn.net/weixin_40779727/article/details/131716884

mathocr论文翻译（一）：When Counting Meets HMER:Counting-Aware Network for HandwrittenMathematical Expression Recognition

paper: https://arxiv.org/abs/2207.11463
GitHub

摘要

目前大多数手写数学表达式识别（handwritten mathematical expression recog-nition， HMER）方法采用encoder-decoder架构，直接从公式图像中使用注意力机制预测标记序列。然而，由于书写风格或空间布局的巨大变异性，这样的方法可能无法准确读取结构复杂或生成长标记序列的公式，因为注意力结果通常不准确。为了解决这个问题，我们提出了一种针对HMER的非常规网络，名为Counting-Aware Network（CAN），它联合优化两个任务：HMER和符号计数。具体而言，我们设计了一个弱监督计数模块，可以在没有符号级位置注释的情况下预测每个符号类的数量，然后将其插入到基于注意力的典型编码器-解码器模型中进行HMER。在HMER的基准数据集上的实验验证了联合优化和计数结果对于纠正encoder-decoder模型的预测错误是有益的，并且CAN始终优于最先进的方法。特别是与用于HMER的encoder-decoder模型相比，所提出的计数模块带来的额外时间成本是微不足道的。源代码可在https://github.com/LBH1024/CAN上获得

关键词：手写数学表达式识别 · 注意力机制 · 计数

1 引言

手写数学表达式识别（HMER）是文档分析中的重要任务，具有包括作业评分、数字图书馆服务和办公自动化在内的广泛应用。尽管当前OCR系统取得了巨大成功，但由于公式复杂结构或不规则书写的存在，HMER仍然是一个非常具有挑战性的问题。

在最近的HMER方法中，广泛使用了encoder-decoder[1,31,40]，这些方法将HMER表述为图像到序列的翻译问题。给定一个手写公式，这些方法使用注意机制预测其对应的标记序列（例如LaTeX）。然而，编码器-解码器模型通常无法保证注意力的准确性，特别是当手写公式的结构复杂或标记序列很长时。

在这篇论文中，我们提出了一种改进HMER编码器-解码器模型鲁棒性的非常规方法。我们认为计数和HMER是两个互补的任务，使用计数可以提高HMER的性能。在这个领域中，物体计数[12,15]已经得到了深入研究，但在OCR领域很少被应用。我们的直觉包括两个方面：

符号计数（如图1(a)所示）能够提供符号级的位置信息，可以使注意力结果更准确。
计数结果表示每个符号类的数量，可以作为额外的全局信息来促进识别准确性。

在这里插入图片描述

具体来说，我们设计了一个弱监督计数模块，称为MSCM。该模块可以轻松地插入现有的编码-解码网络中，并以端到端的方式进行联合优化。有了这个计数模块，encoder-decoder模型可以更好地了解每个符号的位置，如图1(b)所示。值得注意的是，所提出的计数模块只需要原始的HMER注释（LaTeX序列），而无需额外的标注工作。我们将计数模块与典型的encoder-decoder模型（如DWAP [40]）结合起来，提出了一种用于HMER的统一网络，称为计数感知网络（Counting-Aware Networ， CAN）。我们在基准数据集上进行了测试，观察到HMER和符号计数都一致地改善了性能。特别的，相较于原始模型，MSCM带来的额外时间成本微不足道。

总的来说，本文的主要贡献有两个。

我们是首次将符号计数引入到HMER中，并揭示了HMER和符号计数之间的相关性和互补性。
我们提出了一种新的方法，共同优化符号计数和HMER，从而不断改善HMER的编码器-解码器模型的性能。关于性能具体而言，采用DWAP [40]作为基线网络，我们的方法在广泛使用的CROHME数据集上实现了最先进的识别准确率（CROHME 2014为57.00%，CROHME 2016为56.06%，CROHME 2019为54.88%）。此外，采用最新的SOTA方法ABM [1]作为基线网络，CAN实现了新的SOTA结果（CROHME 2014为57.26%，CROHME 2016为56.15%，CROHME 2019为55.96%）。这表明我们的方法可以推广到各种现有的HMERencoder-decoder模型，并提升它们的性能。

2 相关工作

2.1 HMER

传统的HMER方法通常采用三步骤的方法：符号分割、符号识别和基于语法的结构分析。

在识别步骤中，经典的分类技术如HMM、Elastic Matching和支持向量机主要被使用。
在结构分析步骤中，精心设计了形式化的语法来建模公式的二维和语法结构。Lavirotte等人[13]提出了使用图形语法来识别数学表达式。Chan等人[3]则将纠错机制整合到基于定义子句语法的解析器中。然而，传统方法的特征学习能力有限且语法规则复杂，难以满足实际应用需求。

近年来，深度学习快速提升了HMER的性能。主流框架是编码器-解码器网络。Deng等人首次在HMER中应用了基于注意力的编码器-解码器模型，受到image caption任务成功的启发[34]。Zhang等人[43]也提出了一种名为WAP的类似模型。在他们的模型中，他们应用了一个全卷积网络作为编码器，并利用覆盖注意力(coverage attention)来缓解覆盖问题。Wu等人[30, 31]则专注于对抗学习策略以提高识别准确性。随后，Zhang等人[42]设计了一种基于树的解码器来解析公式。每一步都会生成一个父节点和子节点对，父节点和子节点之间的关系反映了结构类型。双向学习已被证明可以有效提高模型的识别性能[23]。Zhao等人[46]设计了一个双向训练的Transformer框架，Bian等人[1]则提出了一种双向相互学习网络。他们进一步证明了双向学习也可以显著提高HMER的性能。

在这里插入图片描述

2.2 目标计数

目标计数可以大致分为两类：基于检测的方法和基于回归的方法。基于检测的方法[17, 21]通过检测每个实例来获得数量。基于回归的方法[15, 33]通过回归密度图来学习计数，预测的计数等于密度图的积分。为了提高计数准确性，回归方法广泛采用多尺度策略[44]、注意力机制[39]和透视信息[35]。然而，无论是基于检测的方法还是基于密度图回归的方法，都需要完全监督的对象位置注释，例如框级别[17, 21]和点级别[15, 33, 44]的注释。为了减轻昂贵且繁重的标注工作，一些只使用计数级别注释（弱监督）的方法被提出[27, 36]。它们发现可视化的特征图可以准确反映对象区域。与大多数以往的计数模块不同，它们通常专门针对特定类别（例如人群计数），我们的计数模块专为多类目标计数而设计，因为公式通常包含各种符号。在OCR领域，谢等人[32]提出了一种主要针对场景文字（单词或文本行）的基于计数的损失函数，而我们的模型可以在特征级别和损失级别上利用更复杂的文本（例如数学表达式）的计数信息。

3 方法

3.1 概述

如图2所示，我们的计数感知网络（CAN）是一个统一的端到端可训练的框架，包括一个主干网络、一个多尺度计数模块（MSCM）和一个计数与注意力相结合的解码器（CCAD）。类似于DWAP[40]，我们采用DenseNet[9]作为主干网络。给定一个灰度的输入图像，CAN首先通过主干网络提取特征，然后将特征输入到MSCM中进行多尺度的计数。最后，CCAD将计数和注意力结合起来，生成最终的输出。

图像 $X ∈ R^{H'×W'×1}$ ，首先使用骨干网络来提取2D特征图$ F ∈ R^{H×W×684} $，其中$ \frac{H’}{H} = \frac{W’}{W}=16$。特征图 $F$ 将被 MSCM 和 CCAD 共同使用。计数模块 MSCM 用于预测每个符号类别的数量，并生成代表计数结果的 1D 计数向量 $V$ 。特征图 $F$ 和计数向量$ V$ 将被输入到 CCAD 中以获得预测输出。

在这里插入图片描述

3.2 多尺度计数模块

在这部分中，我们提出了多尺度计数模块(MSCM)的详细信息，该模块旨在预测每个符号类的数量。具体来说，如图3所示，MSCM由多尺度特征提取、通道注意力和求和池化算子组成。由于不同的书写习惯，数学公式图像通常包含不同尺寸的符号。单一的内核大小无法有效处理尺度变化。为了解决这个问题，我们首先使用不同的内核大小（设置为3×3和5×5）利用两个并行的卷积分支提取多尺度特征。在卷积层之后，我们采用通道注意力[7]来进一步增强特征信息。在这里，我们选择其中一个分支进行简单说明。设 $ \mathcal{H}∈ R^{H×W ×C’} $作为从卷积（ 3 \times 3 或 5 \times 5 ）层中提取出的特征图。增强后的特征$ S$可以表示为：
$\begin{align} \mathcal{Q} &= \sigma(W_1(G(\mathcal{H})+b_1), \\ \mathcal{S} &= \mathcal{Q} \otimes g(W_2 \mathcal{Q} + b_2), \end{align}$
其中 $G$ 是全局平均池化。σ和g(·)分别表示ReLU和sigmoid函数。⊗表示通道内乘法，W1、W2、b1和b2是可训练的权重。在获得增强的特征S之后，我们使用1×1卷积将通道数从C’降低到C，其中C是符号类别的数量。理想情况下，符号计数结果应主要计算前景（符号），即背景的响应应接近零。因此，在进行1×1卷积之后，我们利用sigmoid函数生成范围在（0,1）之间的值，以生成计数图 $\mathcal{M} ∈ R^{H×W ×C}$ 。对于每个 $\mathcal{M}_i ∈ R^{H×W}$ ，它应该有效地反映第i个符号类的位置，如图2所示。从这个意义上说，每个 $\mathcal{M}_i$ 实际上是一个伪密度图，我们可以利用求和池化算子得到计数向量 $\mathcal{V} ∈ R^{1×C}$ ：
$\mathcal{V}_i = \sum_{p=1}^{H} \sum_{q=1}^{W}{M_{i, pq}} \tag{3}$
这里， $\mathcal{V}_i ∈ R^{1×1}$ 是第i个类别符号的预测计数。值得注意的是，不同分支的特征图包含不同尺度的信息，并且高度互补。因此，我们将互补的计数向量结合起来，并使用平均运算符生成最终结果 $\mathcal{V}_f ∈ R^{1×C}$ ，然后将其输入到解码器CCAD中。
在这里插入图片描述

3.3 Counting-Combined Attentional Decoder

我们的计数综合注意力解码器（CCAD）的结构如图4所示。给定2D特征图 $F∈R^{H×W×684}$ ，我们首先使用1×1卷积改变通道数，并获得转换后的特征 $\mathcal{T}∈R^{H×W×512}$ 。然后，为了增强模型对空间位置的感知能力，我们使用一个固定的绝对编码 $\mathcal{P}∈R^{H×W×512}$ 来表示 $\mathcal{T}$ 中的不同空间位置。具体地，我们采用空间位置编码[20]，它独立地使用正弦和余弦函数，使用不同的频率表示空间坐标。在解码过程中，在第t步解码时，我们将符号 $y_{t−1}$ 的嵌入传入一个GRU单元[4]，得到隐藏状态 $ht∈R^{1×256}$ 。通过变换特征T和空间编码 $\mathcal{P}$ ，我们可以得到注意力权重 $α_t ∈ R^{H×W}$ ，具体过程如下：
$\begin{align} e_t &= w^T \tanh(\mathcal{T} + \mathcal{P} + W_a\mathcal{A} + W_hh_t) + b, \tag{4}\\ \alpha_{t, ij} &= \exp(e_t, ij) /\sum_{p=1}^{H} \sum_{q=1}^{W}{e_{t, pq}},\tag{5} \end{align}$
其中， $w, b, W_a, W_h$ 是可训练的权重，而覆盖注意力 $\mathcal{A}$ 是过去所有注意力权重的总和。将注意力权重 $α_t$ 和特征图 F 进行空间乘积运算，我们可以得到上下文向量 $\mathcal{C} ∈ R^{1×256}$ 。在大多数先前的 HMER 方法中，它们只使用上下文向量 $\mathcal{C}$ 、隐藏状态 $h_t$ 和嵌入 $E(y_{t−1})$ 来预测 $y_t$ 。实际上， $\mathcal{C}$ 只对应于特征图 $\mathcal{F}$ 的局部区域。我们认为 $h_t$ 和 $E(y_{t−1})$ 也缺乏全局信息。考虑到计数向量 $\mathcal{V}$ 是从全局计数的角度计算的，它可以作为额外的全局信息来使预测更准确，我们将它们组合在一起来预测 $y_t$ ,如下所示：
$\begin{align} p(y_t) &= \mathrm{softmax}(w^T_o (W_c\mathcal{C} + W_v\mathcal{V} + W_th_t + W_eE) + bo, \tag{6} \\ y_t &\sim p(y_t) \tag{7} \end{align}$
$w_o, b_o, W_c, W_v, W_t, W_e$ 是可训练的权重。

3.4损失函数

整体损失函数包括两个部分，并被定义如下：
$\mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{counting},$
其中 $\mathcal{L}_{cls}$ 是关于预测概率 $p(y_t)$ 与真实标签的交叉熵分类损失。通过表示每个符号类别的计数真值为 $\hat{\mathcal{V}}$ ， $\mathcal{L}_{counting}$ 是一个平滑的L1 [22] 回归损失，定义如下：
$\mathcal{L}_{counting} = \mathcal{smooth}_{L1}(\mathcal{V}, \hat{\mathcal{V}})$

4 实验

4.1 数据集

CROHME数据集[18]是HMER领域中最广泛使用的公共数据集，其来源于在线手写数学表达式识别竞赛（CROHME）。CROHME训练集包含了8836个手写数学表达式，而测试集则包括三个部分：CROHME 2014，2016和2019分别包含了986、1147和1199个手写数学表达式。总共有111个符号类别C，包括"sos"和"eos"。在CROHME数据集中，每个手写数学表达式都以InkML格式存储，该格式记录了手写笔画的轨迹坐标。我们将InkML文件中的手写笔画轨迹信息转换为图像格式进行训练和测试。

HME100K数据集[37]是一个真实场景的手写数学表达式数据集，其中包含了74502张用于训练和24607张用于测试的图像。符号类别 $\mathcal{C}$ 的数量为249，包括"sos"和"eos"。这些图像来自数以万计的作者，主要是由摄像机拍摄。因此，HME100K更加真实和现实，具有颜色、模糊和复杂背景的变化。图5显示了一些示例图像。
在这里插入图片描述

4.2 实现细节

该CAN模型是在PyTorch中实现的。我们使用一个Nvidia Tesla V100显卡，拥有32GB的内存，使用batsh size为8进行模型训练，并采用Adadelta优化器[38]。学习率从0开始，在第一个epoch结束时单调增加到1，并且按照余弦调度[45]逐渐衰减至0。对于CROHME数据集，总共训练240个epoch，并且分别呈现有和无数据增强的结果。与之前的方法相比，我们使用不同的数据增强方法（旋转、仿射、透视、腐蚀和膨胀）来探索我们方法的能力。对于HME100K数据集，总共训练30个epoch，并且没有使用数据增强技术。值得注意的是，在对手写数学表达式中的符号进行计数时，我们忽略了六类不可见符号，将它们的计数设为零：“sos”、“eos”、“ˆ”、“_ ”、“{”、“}”。对这些符号进行计数会混淆模型并降低准确性。

4.3 评估指标

公式识别（Expression recognition）。公式识别率（ExpRate）定义为正确识别公式的百分比，用于评估不同方法在数学表达式识别上的性能。此外，≤ 1和≤ 2也被使用，表示公式识别率在一个或两个符号级别错误下是可容忍的。
符号计数。均方差（MAE）和平均绝对误差（MSE）是目标计数任务中的主要评估指标。在我们的多类符号计数任务中，我们使用MAE和MSE来评估计数的准确性。

4.4 和SOTA方法的对比

在CROHME数据集上的(ExpRate)。大多数先前的方法没有使用数据增强，因此我们主要关注没有数据增强的结果。如表1所示，采用DWAP[40]作为基线，CAN-DWAP在CROHME 2014、CROHME 2016、CROHME 2019上取得了SOTA的结果，并且在CROHME 2016上超过了最新的SOTA方法ABM[1] 3.14%的显著优势。图6展示了DWAP和CAN-DWAP的一些定性识别结果。我们可以观察到，我们的方法不太可能漏掉符号或预测多余的符号。为了进一步验证我们方法的有效性，我们复现了最新的SOTA方法ABM[1]并将其作为我们的基线构建CAN-ABM。如表1所示，CAN-ABM优于其基线并取得了新的SOTA结果。这表明我们的方法可以推广到各种现有的encoder-decoder模型用于HMER并提高它们的性能。

在这里插入图片描述

4.5 在HME100K的结果

虽然CROHME数据集在HMER领域被广泛应用且具有很大的影响力, 但其规模较小限制着不同方法的性能。因此, 我们进一步在HME100K 数据集上评估了我们的方法, 该数据集的规模几乎是CROHME数据集的十倍, 并且具有更多的颜色、模糊和背景变化。定量结果如表2所示, CAN-DWAP 和CAN-ABM在很大程度上优于它们的基线方法DWAP [40]和ABM [1]。
在这里插入图片描述

4.6 推理速度

为了探索我们提出的方法的效率，我们使用一块Nvidia Tesla V100的显卡在HME100K数据集上评估了其速度。如表3所示，与基准模型相比，额外的参数和FLOPs主要是由计数模块的两个卷积层引入了3×3和5×5大小的卷积核。就推理速度而言，计数模块带来的额外时间成本微不足道。

在这里插入图片描述

4.7 消融实验

组件分析（Component Analysis）。在我们的方法中，符号计数作为辅助任务，通过联合优化与主要任务HMER一起影响特征学习。同时，在解码过程中添加计数向量也会影响性能。为了验证位置编码、联合优化和计数向量这三个组件的有效性，我们进行了实验，结果列在表4中。我们可以观察到，联合优化和计数向量都可以在一定程度上提升性能，而添加位置编码也可以稍微提高识别准确率。

计数模块中卷积核的影响。在我们的计数模块MSCM中，我们采用了多尺度策略，使用了不同大小的卷积核（3×3和5×5）。为了探索不同卷积核的影响，我们在CROHME 2014上进行了使用不同大小卷积核的实验。如表5所示，使用3×3和5×5的卷积核同时可以取得最佳结果（57.00%的ExpRate，0.033的MAEAve和0.037的MSEAve）。只使用3×3或只使用5×5的卷积核会降低计数准确度和ExpRate。我们认为这种现象表明，使用不同种类的卷积核获得的多尺度信息可以帮助计数模块更好地处理尺寸变化。

计数向量对HMER的影响。为了探索计数向量的影响，我们使用计数向量的真值，并对其添加了不同的随机扰动（例如，随机加减1），以获得具有不同的MAEAve和MSEAve的多个计数向量。通过在训练和测试过程中向解码器提供这些计数向量，我们进行了多个实验。实验和结果如表6所示。当使用计数向量的真实数据时，CROHME 2014的ExpRate达到了62.44%。随着添加更多干扰，计数向量变得更不准确，因此ExpRate下降。HMER对符号计数的影响。通过联合优化，符号计数可以提升HMER的性能。为了确定HMER是否也可以提升符号计数的性能，我们只用符号计数任务对CAN进行训练，并将其与用两个任务训练的CAN进行比较。如表7所示，HMER可以通过提高MAEAve31.25%和MSEAve15.91%来提升符号计数的性能。图7显示了一些视觉结果。我们可以观察到，当只用符号计数任务进行训练时，有些符号的位置错误（例如“-”）或部分计数错误（例如“2”）。通过HMER任务进行计数可以通过提供上下文感知信息来缓解这个问题，这是通过解码器CCAD中的上下文感知解码过程获得的。

在这里插入图片描述

4.8 案例可视化研究

在这个部分，我们选择一个典型的例子来可视化其计数模块的计数图和解码器的注意力图。如图8所示，在预测符号“n”后，DWAP遗漏了符号" $\sum$ "和符号“ $i$ ”，直接预测了符号“=”。当模型预测“（”时，注意到了缺失的符号" $\sum$ " ，但错误已经在此顺序解码过程中发生。还有一个多余的符号“i”被错误地预测，而注意力图表明这个错误是由于模型重复关注符号“i”引起的。相比之下，我们的方法CAN-DWAP正确地预测了公式。从计数图中可以看出，几乎所有符号的位置都被准确地定位（请注意，我们没有使用符号级别的位置注释）。而每个符号类的预测计数，通过对每个计数图求和计算得到，非常准确。这些现象表明，通过对每个符号类进行计数，模型对每个符号，尤其是它们的位置更加敏感。因此，在解码过程中，模型拥有更准确的注意力结果（从注意力图中可见），并且不太可能漏掉或预测多余的符号。

在这里插入图片描述

4.9 局限性

尽管符号计数带来了显著的性能改进，但书写风格的变化仍然导致了一些识别问题，并且不能很好地通过符号计数来解决，如图9所示。此外，由于我们没有显式建模结构语法，我们的方法在需要极其精细的结构感知能力时可能会出现一些错误。

在这里插入图片描述

5 结论

在本文中，我们设计了一个计数模块MSCM，它可以仅依靠原始的HMER注释（LaTeX序列）进行符号计数。通过将这个计数模块插入基于注意力的encoder-decoder网络中，我们提出了一种非传统的端到端可训练网络，命名为CAN，它共同优化了HMER和符号计数。对于HMER的基准数据集的实验验证了三个主要结论。

符号计数可以持续提高编码器-解码器模型在HMER上的性能。
联合优化和计数结果都对这一改进有贡献。
通过联合优化，HMER还可以提高符号计数的准确性。

6 参考文献

Bian, X., Qin, B., Xin, X., Li, J., Su, X., Wang, Y.: Handwritten mathematical ex-pression recognition via attention aggregation based bi-directional mutual learning.In: Proc. of the AAAI Conf. on Artiﬁcial Intelligence. pp. 113–121 (2022)
Chan, K.F., Yeung, D.Y.: Elastic structural matching for online handwritten al-phanumeric character recognition. In: Proc. of Intl. Conf. on Pattern Recognition.vol. 2, pp. 1508–1511 (1998)
Chan, K.F., Yeung, D.Y.: Error detection, error correction and performance eval-uation in on-line mathematical expression recognition. Pattern Recognition 34(8),1671–1684 (2001)
Cho, K., van Merrienboer, B., Gulcehre, C., Bougares, F., Schwenk, H., Bengio, Y.:Learning phrase representations using rnn encoder-decoder for statistical machinetranslation. In: Conference on Empirical Methods in Natural Language Processing(2014)
Deng, Y., Kanervisto, A., Ling, J., Rush, A.M.: Image-to-markup generation withcoarse-to-ﬁne attention. In: Proc. of Intl. Conf. on Machine Learning. pp. 980–989(2017)
Ding, H., Chen, K., Huo, Q.: An encoder-decoder approach to handwritten math-ematical expression recognition with multi-head attention and stacked decoder.In: Proc. of International Conference on Document Analysis and Recognition. pp.602–616 (2021)
Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: Proc. of IEEE Intl.Conf. on Computer Vision and Pattern Recognition. pp. 7132–7141 (2018)
Hu, L., Zanibbi, R.: Hmm-based recognition of online handwritten mathematicalsymbols using segmental k-means initialization and a modiﬁed pen-up/down fea-ture. In: Proc. of International Conference on Document Analysis and Recognition.pp. 457–462 (2011)
Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K.Q.: Densely connectedconvolutional networks. In: Proc. of IEEE Intl. Conf. on Computer Vision andPattern Recognition. pp. 4700–4708 (2017)
Keshari, B., Watt, S.: Hybrid mathematical symbol recognition using support vec-tor machines. In: Proc. of International Conference on Document Analysis andRecognition. vol. 2, pp. 859–863 (2007)
Kosmala, A., Rigoll, G., Lavirotte, S., Pottier, L.: On-line handwritten formularecognition using hidden markov models and context dependent graph grammars.In: Proc. of International Conference on Document Analysis and Recognition. pp.107–110 (1999)
Laradji, I.H., Rostamzadeh, N., Pinheiro, P.O., Vazquez, D., Schmidt, M.: Whereare the blobs: Counting by localization with point supervision. In: Proc. of Euro-pean Conference on Computer Vision. pp. 547–562 (2018)
Lavirotte, S., Pottier, L.: Mathematical formula recognition using graph grammar.In: Document Recognition V. vol. 3305, pp. 44–52 (1998)
Le, A.D.: Recognizing handwritten mathematical expressions via paired dual lossattention network and printed mathematical expressions. In: Proc. of IEEE Intl.Conf. on Computer Vision and Pattern Recognition Workshops. pp. 566–567 (2020)
Li, Y., Zhang, X., Chen, D.: CSRNet: Dilated convolutional neural networks forunderstanding the highly congested scenes. In: Proc. of IEEE Intl. Conf. on Com-puter Vision and Pattern Recognition (2018)

16B. Li et al.

Li, Z., Jin, L., Lai, S., Zhu, Y.: Improving attention-based handwritten mathemat-ical expression recognition with scale augmentation and drop attention. In: Proc.of International Conference on Frontiers in Handwriting Recognition. pp. 175–180(2020)
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.:Ssd: Single shot multibox detector. In: Proc. of European Conference on ComputerVision. pp. 21–37 (2016)
Mouchere, H., Viard-Gaudin, C., Zanibbi, R., Garain, U.: Icfhr 2014 competitionon recognition of on-line handwritten mathematical expressions (crohme 2014).In: Proc. of International Conference on Frontiers in Handwriting Recognition. pp.791–796 (2014)
Mouch`ere, H., Viard-Gaudin, C., Zanibbi, R., Garain, U.: Icfhr2016 crohme: Com-petition on recognition of online handwritten mathematical expressions. In: Proc.of International Conference on Frontiers in Handwriting Recognition. pp. 607–612(2016)
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., Tran, D.:Image transformer. In: Proc. of Intl. Conf. on Machine Learning. pp. 4055–4064(2018)
Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object de-tection with region proposal networks. Proc. of Advances in Neural InformationProcessing Systems 28 (2015)
Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detec-tion with region proposal networks. IEEE Transactions on Pattern Analysis andMachine Intelligence 39(06), 1137–1149 (2017)
Shi, B., Yang, M., Wang, X., Lyu, P., Yao, C., Bai, X.: Aster: An attentional scenetext recognizer with ﬂexible rectiﬁcation. IEEE Transactions on Pattern Analysisand Machine Intelligence 41(9), 2035–2048 (2018)
Truong, T.N., Nguyen, C.T., Phan, K.M., Nakagawa, M.: Improvement of end-to-end oﬄine handwritten mathematical expression recognition by weakly supervisedlearning. In: Proc. of International Conference on Frontiers in Handwriting Recog-nition. pp. 181–186 (2020)
Tu, Z., Lu, Z., Liu, Y., Liu, X., Li, H.: Modeling coverage for neural machinetranslation. In: Proc. of the Association for Computational Linguistics. pp. 76–85(2016)
Vuong, B.Q., He, Y., Hui, S.C.: Towards a web-based progressive handwritingrecognition environment for mathematical problem solving. Expert Systems withApplications 37(1), 886–893 (2010)
Wang, C., Zhang, H., Yang, L., Liu, S., Cao, X.: Deep people counting in extremelydense crowds. In: Proc. of ACM Multimedia. pp. 1299–1302 (2015)
Wang, J., Du, J., Zhang, J., Wang, Z.R.: Multi-modal attention network for hand-written mathematical expression recognition. In: Proc. of International Conferenceon Document Analysis and Recognition. pp. 1181–1186 (2019)
Winkler, H.J.: Hmm-based handwritten symbol recognition using on-line and oﬀ-line features. In: IEEE International Conference on Acoustics, Speech, and SignalProcessing Conference Proceedings. vol. 6, pp. 3438–3441 (1996)
Wu, J.W., Yin, F., Zhang, Y.M., Zhang, X.Y., Liu, C.L.: Image-to-markup gener-ation via paired adversarial learning. In: Joint European Conference on MachineLearning and Knowledge Discovery in Databases. pp. 18–34 (2018)
Wu, J.W., Yin, F., Zhang, Y.M., Zhang, X.Y., Liu, C.L.: Handwritten mathemati-cal expression recognition via paired adversarial learning. International Journal ofComputer Vision 128(10), 2386–2401 (2020)

When Counting Meets HMER: Counting-Aware Network for HMER17

Xie, Z., Huang, Y., Zhu, Y., Jin, L., Liu, Y., Xie, L.: Aggregation cross-entropyfor sequence recognition. In: Proc. of IEEE Intl. Conf. on Computer Vision andPattern Recognition. pp. 6538–6547 (2019)
Xu, C., Liang, D., Xu, Y., Bai, S., Zhan, W., Bai, X., Tomizuka, M.: Autoscale:Learning to scale for crowd counting. International Journal of Computer Visionpp. 1–30 (2022)
Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R.,Bengio, Y.: Show, attend and tell: Neural image caption generation with visualattention. In: Proc. of Intl. Conf. on Machine Learning. pp. 2048–2057 (2015)
Yan, Z., Yuan, Y., Zuo, W., Tan, X., Wang, Y., Wen, S., Ding, E.: Perspective-guided convolution networks for crowd counting. In: Porc. of IEEE Intl. Conf. onComputer Vision (2019)
Yang, Y., Li, G., Wu, Z., Su, L., Huang, Q., Sebe, N.: Weakly-supervised crowdcounting learns from sorting rather than locations. In: Proc. of European Confer-ence on Computer Vision (2020)
Yuan, Y., Liu, X., Dikubab, W., Liu, H., Ji, Z., Wu, Z., Bai, X.: Syntax-awarenetwork for handwritten mathematical expression recognition. In: Proc. of IEEEIntl. Conf. on Computer Vision and Pattern Recognition. pp. 4553–4562 (2022)
Zeiler, M.D.: Adadelta: an adaptive learning rate method. arXiv preprintarXiv:1212.5701 (2012)
Zhang, A., Yue, L., Shen, J., Zhu, F., Zhen, X., Cao, X., Shao, L.: Attentionalneural ﬁelds for crowd counting. In: Porc. of IEEE Intl. Conf. on Computer Vision(2019)
Zhang, J., Du, J., Dai, L.: Multi-scale attention with dense encoder for hand-written mathematical expression recognition. In: Proc. of Intl. Conf. on PatternRecognition. pp. 2245–2250 (2018)
Zhang, J., Du, J., Dai, L.: Track, attend, and parse (tap): An end-to-end frameworkfor online handwritten mathematical expression recognition. IEEE Transactions onMultimedia 21(1), 221–233 (2018)
Zhang, J., Du, J., Yang, Y., Song, Y.Z., Wei, S., Dai, L.: A tree-structured decoderfor image-to-markup generation. In: Proc. of Intl. Conf. on Machine Learning. pp.11076–11085 (2020)
Zhang, J., Du, J., Zhang, S., Liu, D., Hu, Y., Hu, J., Wei, S., Dai, L.: Watch,attend and parse: An end-to-end neural network based approach to handwrittenmathematical expression recognition. Pattern Recognition 71, 196–206 (2017)
Zhang, Y., Zhou, D., Chen, S., Gao, S., Ma, Y.: Single-image crowd countingvia multi-column convolutional neural network. In: Proc. of IEEE Intl. Conf. onComputer Vision and Pattern Recognition (2016)
Zhang, Z., He, T., Zhang, H., Zhang, Z., Xie, J., Li, M.: Bag of freebies for trainingobject detection neural networks. arXiv preprint arXiv:1902.04103 (2019)
Zhao, W., Gao, L., Yan, Z., Peng, S., Du, L., Zhang, Z.: Handwritten mathe-matical expression recognition with bidirectionally trained transformer. In: Proc.of International Conference on Document Analysis and Recognition. pp. 570–584(2021)