华宇OCR在通用印刷体文字识别上取得了成功,但随着业务的不断深入,客户对于手写识别的需求越来越大,其他厂商也相继推出了手写识别产品,我们在评估了当前技术以及数据基础等条件后,在19年末立项了手写识别研究课题。下图是近期取得的识别效果展示:
图1 alpha版识别效果
相比于通用印刷体文字识别,手写字体的无规则、连笔、潦草、简体字等特点都导致其难度远超印刷体识别。另外,在数据方面,不能像印刷体那样通过大量合成数据提高算法精度,手写的高质量标注数据较少也是一大挑战。
我们一方面研究适合手写识别的深度学习算法,另一方面疯狂的找数据标注、研究手写数据合成和数据增强的方法。在标注数据较少的情况下,我们通过数据合成、数据增强等手段扩充了十倍数据,基于此我们训练了一个手写识别模型,综合情况下AR可达85%,在清晰的字体上AR可达92%。目前的手写识别还属于alpha版,后续我们还要优化算法、添加语言模型。正式版本,敬请期待!