通用印刷体文字识别_华宇OCR之手写识别

      华宇OCR在通用印刷体文字识别上取得了成功,但随着业务的不断深入,客户对于手写识别的需求越来越大,其他厂商也相继推出了手写识别产品,我们在评估了当前技术以及数据基础等条件后,在19年末立项了手写识别研究课题。下图是近期取得的识别效果展示:

294a5ff0554143a738c4e888d3b463aa.png

       图1 alpha版识别效果

      相比于通用印刷体文字识别,手写字体的无规则、连笔、潦草、简体字等特点都导致其难度远超印刷体识别。另外,在数据方面,不能像印刷体那样通过大量合成数据提高算法精度,手写的高质量标注数据较少也是一大挑战。

      我们一方面研究适合手写识别的深度学习算法,另一方面疯狂的找数据标注、研究手写数据合成和数据增强的方法。在标注数据较少的情况下,我们通过数据合成、数据增强等手段扩充了十倍数据,基于此我们训练了一个手写识别模型,综合情况下AR可达85%,在清晰的字体上AR可达92%。目前的手写识别还属于alpha版,后续我们还要优化算法、添加语言模型。正式版本,敬请期待!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值