算法改进策略
这两周在看其他论文的时候,当看到 Improving Attention-Based Handwritten Mathematical Expression Recognition with Scale
Augmentation and Drop Attention 认为其中的思想Scale Augmentation对现有模型会有一定的提高,下面对Scale Augmentation思想进行简述:
与手写文本不同,ME具有复杂的二维结构和各种大小的符号.如果通过保持高宽比将多行MES标准化为同一尺度,一些符号(例如上标、下标和点)比其他符号要小,这就增加了识别难度。我们不是将MES正常化到相同的规模,而是原有的训练集,在每次训练时,保持每张图片的纵横比不变,MES被随机地扩展到另一个尺度,并且被零填充到固定的大小。在测试阶段,MES是零填充到固定大小。这样训练编解码器来适应各种符号的大小。
由于实现所用的GPU资源有限,将图片扩充到较大的规模时,在保持原来的batchsize将就会有显存溢出的风险,于是我们将batchsize调小,这样模型能正常训练,只是所需要的时间会增加,具体的实验结果将会在下一篇博客中介绍。
新型的树形解码器
此外,在阅读更新的论文TDv2: A Novel Tree-Structured Decoder for Offline Mathematical Expression
Recognition发现,目前存在一种新型树形解码器,识别的正确率也相对比较乐观,我们后面的工作将会着重放在树形解码器上,尝试复现论文,并通过实验观测准确率是否会有所提高。