项目背景
公式在科学文献中起着至关重要的作用,对于描述数学、物理和许多其他领域的问题和理论是必不可少的,手写公式的识别多年来一直是一个活跃的研究领域。本项目对手写公式的智能识别开展研究,针对试卷中的手写体数学公式,旨在根据手写数学公式图像生成数学表达式序列,即将手写笔画的二维语言翻译成计算机可以使用的序列形式,如LATEX或MathML等数学描述语言,进而判断公式书写的正误。
重难点分析
- 公式的识别与传统的OCR文本识别问题不同,手写公式相较于传统OCR问题而言,是一个更复杂的二维手写识别问题,其内部复杂的二维空间结构使得其难以被解析,因此除了对公式中包含的字符进行识别,还要分析公式的二维结构。
- 公式由于其本身的结构将会在识别过程中产生巨大的挑战:二维结构的存在、公式格式的多样性、公式结构复杂,尤其是各种结构的嵌套、难以辨别的形近字符(如 “Z”和“2”,“O”和“0”)、各种字符(非常规符号、字母、数字、运算符)的组合等因素都使得手写公式在识别中难以被解析。
- 手写带来的挑战:手写输入中的巨大歧义、在实际情景中手写公式的书写风格、以及手写不规范带来的缺少笔触、字体歪斜、涂抹等问题都给手写公式识别增加了难度。
- 公式对上下文信息的强烈依赖,以及可能会遇到模糊、噪声和背景复杂等问题,使公式识别变得困难。
计划安排
- 由于没有基础学习的基础知识,前期主要学习机器学习的相关知识以及阅读手写数学公式方面的论文。
- 中期完成手写公式的识别
- 后期搭建平台,部署上线