论文阅读：Improving Attention-Based HMER with Scale Augmentation and Drop Attention

原创于 2021-06-07 16:27:12 发布

· 520 阅读

·

1

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

一、解决问题

传统的基于语法的方法，是通过符号分割、符号识别和结构分析来识别数学公式。许多HMER的DNN模型把HMER作为一个图像到序列的问题，如Image-2-Markup、WAP、Pattern generation strategies和paired adversarial learning。

这些方法通常将识别文本标准化到某个固定的高度。但由于数学公式复杂的二维结构和不同尺寸的符号，规范化为相同的高度会降低识别性能。为了解决这个问题，本文提出了一种尺度扩展方法来生成数学公式图像，以此训练DNN模型。在输入DNN之前，扩张公式到另一个尺度，但保持原来的长宽比。随后，MEs被零填充到固定大小。然后训练DNN模型，以从不同尺度的MEs中生成正确的预测。

使用基于注意力机制的编码器-解码器框架来识别数学公式时，解码器会生成一个注意权重，它表示每个特征对于在当前时间步长中预测该符号的重要性。当注意力忽略了关键特征时，模型会产生错误的预测。故提出了dropout注意模块，同样是在训练阶段应用于解码器，通过抑制或放弃特征，dropout注意力模块可以帮助模型预测正确的符号或空间关系。

二、主要方法

1、Encoder-Decoder网络

在本文中，将HMER作为一个图像到序列的问题来处理。给定ME图像，输出ME的LaTeX序列。模型使用CNN的编码器和基于注意力的RNN解码器。

通过修改ResNet-18来构建编码器，因为CNNs擅长于视觉特征提取。为了提取更精确的特征，并避免忽略小尺度符号的特征（如点、上标或下标）的特征，设置ResNet-18所有卷积层的步长为1。此外，还采用了最大池化层进行下采样。dropout层用于缓解网络过拟合。

随后，输出特征F被传到解码器。基于注意力的解码器是RNN为主体，实现从特征F迭代地生成目标序列Y。在时间步骤t，生成符号y_t的概率取决于上下文c_t，以及RNN输出的当前隐藏状态ht。p(y_t)=g（c_t、h_t）。g是线性函数。

特征F的大小表示为L=H×W；H和W分别是特征F的高度和宽度。上下文向量c_t是特征F的加权和，α_(t,l)是F在时间步t的第l个特征的权重。

基于注意力的解码器在每个时间步只集中于特征的子集。利用梯度下降的反向传播算法训练，解码器确定在当前时间步长t生成y_t。使用激活函数tanh计算注意权重，使用soft-max函数实现正则化在计算注意力权重时，位置嵌入q_l使解码器位置敏感。采用覆盖特征s_l来解决过度关注和不足关注。

2、尺度增加

通过公式组来增加数学公式的尺度

k是比例因子，保持长宽比恒定。

在训练阶段，MEs被扩充到另一个尺度，并被零填充到固定的大小。在测试阶段，MEs被零填充到固定大小而无需增大。编码解码器网络被训练以适应不同尺度的元素，并产生正确的预测。

3、注意下降

当注意力忽略了关键特征时，该模型就会产生错误的预测，并表现得更糟。所以，在解码器中提出下降注意模块。首先，随机抑制注意权重α最高的特征，并放弃特征图上的点。

γ是抑制因子；r_p和r_s是服从伯努利分布的随机值。特征f^代替f，使模型在注意力不精确时预测正确的符号或空间关系。

三、实验

在CROHME2014训练集(包含8834个MEs)上进行了训练，并在CROHME2013测试集(包含671个MEs)上进行了验证。

ExpRate≤1（%)、≤2(%)和≤3(%）表示当一个、两个或三个符号级错误可容忍时的表达式识别率。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。