一、解决问题
传统的基于语法的方法,是通过符号分割、符号识别和结构分析来识别数学公式。许多HMER的DNN模型把HMER作为一个图像到序列的问题,如Image-2-Markup、WAP、Pattern generation strategies和paired adversarial learning。
这些方法通常将识别文本标准化到某个固定的高度。但由于数学公式复杂的二维结构和不同尺寸的符号,规范化为相同的高度会降低识别性能。为了解决这个问题,本文提出了一种尺度扩展方法来生成数学公式图像,以此训练DNN模型。在输入DNN之前,扩张公式到另一个尺度,但保持原来的长宽比。随后,MEs被零填充到固定大小。然后训练DNN模型,以从不同尺度的MEs中生成正确的预测。
使用基于注意力机制的编码器-解码器框架来识别数学公式时,解码器会生成一个注意权重,它表示每个特征对于在当前时间步长中预测该符号的重要性。当注意力忽略了关键特征时,模型会产生错误的预测。故提出了dropout注意模块,同样是在训练阶段应用于解码器,通过抑制或放弃特征,dropout注意力模块可以帮助模型预测正确的符号或空间关系。
二、主要方法
1、Encoder-Decoder网络
在本文中,将HMER作为一个图像到序列的问题来处理。给定ME图像,输出ME的LaTeX序列。模型使用CNN的编码器和基于注意力的RNN解码器。
通过修改ResNet-18来构建编码器,因为CNNs擅长于视觉特征提取。为了提取更精确的特征,并避免忽略小尺度符号的特征(如点、上标或下标)的特征,设置ResNet-18所有卷积层的步长为1。此外,还采用了最大池化层进行下采样。dropout层用于缓解网络过拟合。
随后,输出特征F被传到解码器。基于注意力的解码器是RNN为主体,实现从特征F迭代地生成目标序列Y。在时间步骤t,生成符号y_t的概率取决于上下文c_t,以及RNN输出的当前隐藏状态ht。p(y_t)=g(c_t、h_t)。g是线性函数。
特征F的大小表示为L=H×W;H和W分别是特征F的高度和宽度。上下文向量c_t是特征F的加权和,α_(t,l)是F在时间步t的第l个特征的权重。
基于注意力的解码器在每个时间步只集中于特征的子集。利用梯度下降的反向传播算法训练,解码器确定在当前时间步长t生成y_t。使用激活函数tanh计算注意权重,使用soft-max函数实现正则化在计算注意力权重时,位置嵌入q_l使解码器位置敏感。采用覆盖特征s_l来解决过度关注和不足关注。
2、尺度增加
通过公式组来增加数学公式的尺度
k是比例因子,保持长宽比恒定。
在训练阶段,MEs被扩充到另一个尺度,并被零填充到固定的大小。在测试阶段,MEs被零填充到固定大小而无需增大。编码解码器网络被训练以适应不同尺度的元素,并产生正确的预测。
3、注意下降
当注意力忽略了关键特征时,该模型就会产生错误的预测,并表现得更糟。所以,在解码器中提出下降注意模块。首先,随机抑制注意权重α最高的特征,并放弃特征图上的点。
γ是抑制因子;r_p和r_s是服从伯努利分布的随机值。特征f^代替f,使模型在注意力不精确时预测正确的符号或空间关系。
三、实验
在CROHME2014训练集(包含8834个MEs)上进行了训练,并在CROHME2013测试集(包含671个MEs)上进行了验证。
ExpRate≤1(%)、≤2(%)和≤3(%)表示当一个、两个或三个符号级错误可容忍时的表达式识别率。